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淡 江 大 学 出 版 中 心 


资料 与 图 书馆 学 ， 始 於 1970 年 3 月 创刊 之 教育 资料 科学 月 刊 ， 
更 名 局 教育 资料 科学 ， 焉 改 以 季刊 发 行 。 自 re 
9 月 起 易 今 名 。 另 目 2016 年 11 月 起 ， 改 以 一 年 出 版 三 期 (3 月 、 
11 月 ) 。 现 由 淡 江 大 学 出 版 中 心 出 版 ， eee 
AA AIGA ACS IB ERA (ee aa ° ATI IES eT ^ 2008 
| FRERE Se TRY EUIS IR fk * 20154 EE EHE HIA Sit EE 
ACH RE ES ECE SPSS T GUT] o REA TAA CRI 
库 所 收录 (如 下 英文 所 列 ) 。 
The JOURNAL OF EDUCATIONAL MEDIA & LIBRARY SCIENCES (JoEMLS), 
published by the Tamkang University Press and co-published with the Department of 
Information & Library Science (DILS) and Chueh Sheng Memorial Library, was formerly the 
Bulletin of Educational Media Science (March 1970 — June 1980) and the Journal of 
Educational Media Science (September 1980 — June 1982). In 2015, The JoEMLS is 
acknowledged as the first class scholarly journal in Taiwan by Ministry of Science and 
Technology (MOST). Since November 2016, the JoEMLS has been changed from quarterly 
to a tri-annual journal, published in March, July, and November. 
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EDITORIAL 


Opportunities for Deepening 
the Reform of the Metadata Elements of 
Journal Articles 


The metadata of journal articles generally refers to information regarding 
journal name, volume and issue number, article’s title, name(s) of author(s), 
keywords, page range, etc. However, in order to help readers enhance their 
understanding of article contents when searching for articles, most journal 
publishers and database organizations present the above metadata together with 
the abstract of the article to facilitate readers to quickly identify its content. 
For scholarly articles, in addition to the academic value of the text itself, the 
references cited by the authors in the texts have significant research value in all 
the issues in scholarly communication and publication. The references not only 
present the author’s exploration and recognition of previous scholarship, but also 
assist future generations to further discover scientific trajectories and disseminate 
scholarly knowledge through the cited references. 

Although open access (OA) to academic journals continues to flourish in the 
global academic community, most academic publishers focus on the open access 
and availability of full-text digital files of articles. In contrast to the opening of 
digital files, the release of metadata and their subsequent use are still awaiting 
the discussion and efforts of the industry, government, and academia. In order 
to implement the concept of OA, some groups have advocated opening up the 
abstracts, together with the references, in articles in recent years, as a result of 
which two initiatives, the Initiative for Open Citations (140C) and the Initiative 
for Open Abstracts (14OA), have come into being. Of the two, the I4OC even 
hopes that academic publishers or journal publishers, under the premise of 
providing free bibliographic data, can provide references at the same time, so as 
to promote the release of citation data in a structured, separable, and open-access 
condition, and then proceed to build a copyright-free academic citation database. 

At the present stage, most of the search fields provided to readers in the 
academic literature databases or official websites established by journals in 
Taiwan are such metadata as journal name, volume and issue number, article's 
title, name(s) of author(s), keywords, and page range, but not including the 
element of references. If readers want to retrieve the reference literature, they 
must first confirm whether full-text downloading is permitted before further 
downloading the electronic file of a single article, from which they make the 
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searches and checking; or readers must leave the search interface of the literature 
database or journal website and navigate to the Taiwan Humanities and Social 
Sciences Citation Index Database (free search) or Scopus and Web of Science 
(subscription required) to do their searches and checking, without being able 
to obtain the research information needed at a one-stop location. It is hoped 
that academic publishers and journal publishers can work together with the 
government and private databases, striving to integrate the complete metadata 
of Taiwan’s academic journals and gear them to international standards, so as to 
enhance the professional image of Taiwan’s academic publishing. 

In this issue (Issue 2, Volume 59), 10 manuscripts have gone through the 
review process. Two manuscripts were rejected at the internal review process 
for format evaluation. Eight manuscripts have gone through the whole review 
process, and four were accepted, with a rejection rate of 50% (4 out of 8). 
The articles published in this issue include: “To Use or Not to Use? Exploring 
the Factors Influencing Professional Reusers’ Intention to Adopt and Utilize 
Governmental Open Data in Taiwan” by Tung-Mou Yang and Yi-Jung Wu, “Effects 
of Afterschool Programs in Public Libraries on Disadvantaged Children: The 
Case of the New Taipei City Library” by Ya-Wei Chuang and Hui-Yun Sung, 
“Exploring Article Process Charge of Open Access Journals from the Perspectives 
of Publication Characteristics and Citation Impact Indicators: A Case Study in 
the Medical Field” by Chia-Yu Lin and Wen-Yau Cathy Lin, and “Estimation of 
Topic Similarity and Its Application to Measuring Stability of Topic Modeling” by 
Sung-Chien Lin. Special thanks are dedicated to the reviewers and authors. 


Jeong-Yeou Chiu 
JoEMLS Chief Editor 
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期 刊 文章 的 书目 资料 metadata ) 一 般 所 指骨 期 刊 名 、 卷 期 数 、 文 章 篇 名 、 
作者 姓名 、 关 键 漳 、 页 码 等 资讯 ， 但 为 能 终 协 助 藏 者 在 查 检 文章 时 “， 提 升 对 论 
文章 内 容 的 理解 度 ， 多 数 期 刊 出 版 者 及 资料 库 机 构 会 在 呈现 上 述 书 目 资料 时 ， 
连同 训 篇 文章 的 摘要 一 余 晤 现 ， 方 便 读 者 快速 识别 文章 之 内 容 。 对 於 学 术 性 文 
章 而 言 ， 除 了 内 文本 身 所 带 来 的 学 术 价 值 ， 其 作者 在 内 文 所 引用 的 参考 文献 ， 
更 是 在 整个 学 术 传 播 及 出 版 功 题 中 ， 估 有 相当 重要 的 研究 价值 。 参 考 文 献 不 仅 
BEA ERRA m ER ATA CS OU EZR Bee Sh * SEAT BIR AF 
所 引用 的 参考 文献 ， 而 进一步 发 现 科 学 轨 咏 及 传播 学 和 术 知 识 。 

储 管 学 术 期 刊 开 放 取 用 (Open Access， 简 称 OA ) 在 全 球 尝 和 术 界 持续 同 戌 运 
行 ， 但 各 家 学 入 出 版 两 大 多 专 往 在 文章 全 文 数位 楷 案 之 公开 及 取得 。 相 较 於 数 
位 档案 的 开放 “， 文章 书目 资料 的 释 出 以 及 和 后 各 运用 ， 和 仓 仍 待产 官学 三 界 的 讨论 
及 努力 。 骸 了 能 匆 贯 微 OA 此 一 概念 ， 近 年 来 亦 有 团体 倡 遵 将 文章 中 的 摘要 与 
参考 文献 一 人 开放 “， 因 而 开放 引文 (Initiative for Open Citations > f£iff I4OC ) 以 
及 开放 摘要 (Initiative for Open Abstracts， 简 称 IMOA ) PAUSER EE © 
其 中 I40C 更 是 希望 学 和 术 出 版 社 或 期 刊 出 版 方 在 免费 提供 书目 数据 之 前 提 下 ， 同 
时 间 提 供 参考 文献 ， 促进 引 文 数据 能 狗 以 结构 化 、 可 分 元 和 开放 取 用 的 状态 释 
出 ， 进 而 建 置 无 著作 权限 制 的 学 了 术 引 文 资 料 库 。 

以 台湾 现 阶段 的 学 术 文 献 资料 库 或 是 期 刊 自行 建 置 忆 官方 网 站 ， 其 所 提供 
REAR RLR MKZ RATA ` EHR LE S FEE > ge > 
ESSE EEHEUBE > BATTERSEA E HII: (element) * FARA 
文献 ， 则 必须 先 确 认 是 否 允 许 全文 下 载 后 ， 才 能 进一步 单 篇 下 载 电 子 档 ， 再 从 
中 检索 、 碍 阅 ; 又 或 是 读者 须 识 开 文 献 资 料 库 或 期 和 网 站 之 检索 介面 ， 额 外 至 
SERE SC ESTEE [X385 AEE C n 66 tts ) S Scopus 及 Web of Science 
〈 揉 订阅 付费 使 用 ) 等 引文 索引 资料 库 进 行 查 检 ， 而 无 法 一 站 式 取得 所 要 之 研 
完 资 讯 。 期 待 未 来 学 术 出 版 社 及 期 刊 出 版 方 能 与 政府 及 民间 资料 库 业 者 揣 手 合 
作 “， 整 合 台湾 学 术 期 刊 乙 完整 书目 资料 闻 与 国际 接轨 “， 夭 此 提升 台湾 学 术 出 版 
专业 形象 。 

本 卷 期 (59 卷 2 期 ) 评 并 作业 含 前 置 编 务 审查 作业 共计 10 篇 稿件 ， 完 成 外 
害 评阅 作业 流程 之 退 稿 篇 数 为 四 件 ， 另 有 两 篇 因 形 式 害 查 不 通过 而 退 稿 二 最 
后 仅 保 留 四 篇 大 作 刊 登 ， 也 使 得 本 卷 期 退 稿 率 迷 到 50%。 迁 次 得 以 顺利 刊 出 的 
学 者 大 作为 : Tung-Mou Yang il Yi-Jung Wu “To Use or Not to Use? Exploring the 
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Abstract 


In recent years, open government data has become one of the prevailing 
policy implementations among government administrations around the world. 
Researchers maintain that open data providers and users play critical roles 
in forming a sound open data ecosystem. However, recent studies have found 
that open data use has not kept up with expectations, with the number of open 
data applications increasing slowly. Therefore, using a qualitative research 
approach to focus on professional reusers, this study explores the determinants 
that influence professional reusers’ intention to use governmental open 
data. With qualitative empirical data support, the identified determinants 
include perceived usefulness, perceived effort, external influence, facilitating 
condition, legislation and license, self-efficacy, and perceived risk. In addition, 
the determinants are incorporated into the theory of planned behavior to 
investigate how the determinants act as behavioral, normative, and control 
beliefs in influencing professional reusers’ intentions. Further, this study 
discusses related suggestions that can strengthen the sustainability of an open 
data ecosystem. The discussion and practical implications of this study are 
expected to provide insights to both practitioners and policymakers for further 
developing open data policies and enriching the current open data—related 
literature. 
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Introduction 

Government agencies are perceived as entities possessing various resources 
that can be shared and utilized across the boundary of the public and private 
sectors. In particular, while government agencies are usually considered the 
largest data creators and collectors across a nation’s different domains, open 
government data in recent years has gradually become an important policy 
implementation adopted by government administrations around the world 
(World Wide Web Foundation, 2018). The number of countries with open 
data portals has increased significantly from 46 in 2014 to 153 in 2020 (United 
Nations Department of Economic and Social Affairs, 2020). Open data refers 
to the concept in which datasets are published online in electronic forms that are 
machine-readable and with a non-proprietary format, and the datasets can be freely 
accessed, used, modified, and shared by anyone at any place for any purpose 
(The World Bank, n.d.). The goal of open government data is to enhance the 
fundamental principles of open government, including transparency, participation, 
and collaboration, by ensuring public engagement in using governmental open 
data. The public is expected to utilize governmental open data to generate 
innovative data usage and applications, spur economic growth, and bring positive 
impacts to society (Attard et al., 2015; Janssen et al., 2012; Janssen & Zuiderwijk, 
2014). A common belief maintains that when government agencies publish 
more datasets on open data platforms, the public will be motivated to reuse the 
datasets. However, recent research indicates that open data use has not kept up 
with expectations, although related infrastructure, such as open data platforms, 
has been available online to provide services (Najafabadi & Luna-Reyes, 2017; 
Zuiderwijk et al., 2016). In addition, there are difficulties in obtaining people's 
participation in using governmental open data. The public seems to agree with 
an open data movement but does not necessarily engage in reusing the published 
datasets (Hellberg & Hedstróm, 2015). While open data users play a critical role 
in forming a sound open data ecosystem, if the projected data users do not use 
the published datasets, the objective of open data initiatives can be futile (Attard 
et al., 2015; Hivon & Titah, 2017). Therefore, it is necessary to understand the 
factors that influence people's engagement in using governmental open data. 

Researchers have recently classified open data users into two categories: 
direct reusers and end users (Abella et al., 2019). Direct reusers can be 
professional reusers and social reusers. Professional reusers refer to entrepreneurs 
and private companies that use open data to innovate and create for-profit 
products and services. Social reusers represent non-profit organizations such 
as NGOs providing services to others. On the other hand, end users mean 
entities, organizations, or citizens consuming open data-related products and 
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services provided by direct reusers. In addition, researchers have suggested that 
there should be more open data studies conducted in different contexts, such as 
sources, areas, and countries, to explore the use of governmental open data and 
how related open data policies can be further developed (Magalhaes & Roseira, 
2016; Susha et al., 2015; Zuiderwijk & Hinnant, 2019). Even to this day, there 
is still limited research on open data use focusing on professional reusers in the 
context of Taiwan’s open government data. Therefore, this research explores 
and discusses open data use from the perspective of Taiwan’s professional 
reusers using governmental open data to develop for-profit business applications. 
Specifically, the following research questions are investigated in this exploratory 
study: 1. What are the critical factors influencing professional reusers’ intention to 
use governmental open data? 2. What is the nature of the impact of these factors? 3. 
What strategies can be employed to sustain an open data ecosystem based on the 
perspective of professional reusers? 

The rest of the paper is organized as follows. In the following section, the 
global open data movement is first briefly introduced. Then, the recent literature 
on open data research and open data use is reviewed, and the proposed research 
is subsequently presented. Next, the paper describes the research design and 
methods of this study, in which the employed case, data collection, and data 
analysis are presented. Then, the paper discusses the findings and implications 
of the empirical data analysis. Lastly, the conclusion section expounds on the 
contribution and limitations of the current study. Future research directions are 
also suggested. 


Literature Review 

The Movement of Open Government Data 

In this global movement, the U.S. government first established its open data 
portal in 2009 to provide data access to its federal government agencies. Open 
government data became an important pillar in supporting the information-centric 
strategy of the U.S. digital government (Digital Government, n.d.). The OPEN 
Government Data Act (Open, Public, Electronic, and Necessary Government Data 
Act) was further enacted, requiring U.S. federal agencies to make datasets open 
online by default in a form that is machine-readable and freely reusable (H.R.4174 
—115th Congress [2017-2018]: Foundations for Evidence-Based Policymaking 
Act of 2018, 2019). Similarly, in 2010 the U.K. government initiated its open 
data portal to release datasets of its central and local government agencies. A 
government report, the Open Data White Paper, was published, in 2012 by the U.K. 
government to emphasize the potential of publishing governmental open data to 
achieve transparency and accountability (UK Minister of State for the Cabinet 
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Office, 2012). By the end of 2012, The European Union (EU) also established its 
open data portal, allowing the public to access data released from EU agencies and 
institutions. An Open Data Charter was signed in 2013 by the Group of Eight (G8) 
leaders to promote the principles of open government data, including open data by 
default, quality and quantity, usable by all, improving governance, and enhancing 
innovation. In 2014, the leaders of the largest G20 industrial economies agreed to 
use governmental open data as a tool against corruption. The Open Government 
Partnership, dedicated to making government administrations more open, 
accountable, and responsive to citizens, also enacted its Open Data Charter by 
the end of 2015 to provide open data principles to its member countries. Notably, 
the Charter has been adopted by 79 national and local governments from around 
the world (Open Data Charter, 2021). According to the 2020 United Nations 
E-Government Survey, the number of countries implementing open government 
data policies has been growing steadily, and 153 countries have established their 
respective open data portals (United Nations Department of Economic and Social 
Affairs, 2020). Likewise, intergovernmental organizations such as the United 
Nations, OECD, and World Bank have initiated open data sites and projects to 
provide the public access to their datasets. 


The Recent Research on Open Government Data 

Researchers from different disciplines, such as information science, 
information management, public administration, computer science, and law, have 
explored the complexity of open government data from various perspectives 
and knowledge areas (Hossain et al., 2016; Zuiderwijk & Hinnant, 2019). 
Government agencies appear to have a risk-averse culture and act conservatively 
in opening their datasets (Peled, 2011). As the World Wide Web Foundation (2018) 
indicates in its Open Data Barometer report, the vast majority of governmental 
datasets remain closed to the public. The progress of embedding open data 
policies is slow, and governments still treat open data as a side project. Another 
recent study also indicates that most of the published government resources on 
open data sites are informational data rather than granular data, and only a small 
number of the datasets advertised as open data are actually open (V. Wang & 
Shepherd, 2020). 

Therefore, from the perspectives of technology, organization, legislation and 
policy, and environment, researchers have studied and discussed related social 
and technical enablers and impediments that have an impact on government 
agencies in implementing open data policies (Barry & Bannister,,2014; Conradie 
& Choenni, 2014; Janssen et al., 2012; Yang et al., 2015). It is indicated that the 
reuse of governmental data can be an obscure policy domain, and the interrelation 
between open data and other policy areas is complicated (Bates; 2014): 
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Meanwhile, government agencies tend to lack clear guidelines for publishing 
open data to external parties. Researchers suggest that it is important to create 
a system and enact policies to promote the release of open data by reducing the 
social, economic, and political impacts that government agencies may encounter 
(Gerunov, 2017; Nugroho et al., 2015). For instance, Zuiderwijk and Janssen 
(2014) proposed a framework to improve the development of both new and 
existing open data policies by taking in perspectives of environment, policy 
content, and performance evaluation. Dawes et al. (2016) developed a general 
model for planning open data programs using an ecosystem approach to address 
various perspectives of open data initiatives, including policy and strategy, data 
publication and use, feedback and communication, and stakeholder interactions. 

In addition, researchers investigated the emerging open data business 
models to understand their characteristics, patterns, and strategies used to create 
economic opportunities (Zeleti et al., 2014). Different types of infomediary 
business models driven by governmental datasets were identified (Janssen & 
Zuiderwijk, 2014). In terms of open data assessment, measurement frameworks 
were developed to evaluate the maturity and progress of open data initiatives in 
government administrations (Chu & Tseng, 2016; Solar et al., 2012; Yang & Wu, 
2019; Zhu & Freeman, 2019). Further, related indexes were also developed for 
the evaluation and categorization of open data portals and their metadata qualities 
(Kubler et al., 2018; Thorsby et al., 2017). Similarly, the Open Knowledge 
Foundation and World Wide Web Foundation also built their own benchmarks — 
the Global Open Data Index and the Open Data Barometer— to evaluate the open 
data developments of global government administrations. 


The Use of Governmental Open Data 

Researchers have indicated that publishing data alone is not enough to 
enable the life cycle of open government open (Attard et al., 2015). After 
data publication, data users must be able to discover and access data for data 
consumption. Likewise, according to Dawes et al.'s (2016) open data ecosystem 
model, one of the key stakeholders are users who utilize open data in conducting 
analyses and developing applications. In addition to government agencies 
acting as data providers, data users play a critical role in the success of open data 
initiatives. Therefore, there is a need to better understand the interaction between 
government agencies and open data users, considering its sustainability is crucial 
to the development of an open data ecosystem (Hivon & Titah, 2017). 

A recent study has identified five major motives for open data use, including 
exploring creativity, creating business value, enabling local citizen. value, 
addressing global societal challenges, and advocating the open data agenda 
(Lassinantti et al., 2019). It is indicated that individuals’ open data use can be 
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influenced by policies, processes, and infrastructure used to provide open data 
(Susha et al., 2015). In particular, impediments may exist while users attempt to 
access and use datasets (Zuiderwijk et al., 2012). A recent investigation points 
out that many open data portals are still in a very early stage of development, 
and a great deal of work is needed to help the public understand and use data 
(Thorsby et al., 2017). While open data use includes activities to search, identify, 
and download datasets, open data portals should also make the related processes 
easier to facilitate users in obtaining datasets (Dawes et al., 2016). In particular, a 
machine-readable and non-proprietary format is essential to enable easier access 
and unrestricted use (Attard et al., 2016). 

Researchers have indicated that users’ trust in the quality of open data 
weighs on whether the users would engage in using datasets (Purwanto et al., 
2020; Zhu & Freeman, 2019; Zuiderwijk et al., 2016). Open data without proper 
quality control may jeopardize dataset reuse and bring negative impacts on civic 
participation (Weerakkody et al., 2017). Thus, the importance of metadata of 
published datasets is also emphasized; it is expected to help in the use of open 
data by enhancing user experience (Zuiderwijk et al., 2016). 

It is suggested that open data infrastructure should maintain mechanisms 
to respond to the questions, problems, and suggestions raised by open data 
users (Purwanto et al., 2020; Zhu & Freeman, 2019; Zuiderwijk et al., 2016). 
Communication channels allow open data users to request datasets and report 
errors for government agencies to improve the quality of the released datasets (Yang 
et al., 2015; Zuiderwijk et al., 2016). 

Researchers have further argued that outdated laws and policies could 
prevent data from being used to create value. For instance, the inexistence or 
inconsistency of licensing in the datasets across different jurisdictions could have 
an impact on open data use (Attard et al., 2016; Magalhães & Roseira, 2016). Thus, 
detailed information should be provided for users to understand how open data can be 
used in compliance with related licenses and regulations (Kaasenbrood et al., 2015). 

It is also found that the availability of citizens’ resources matters in open 
data use (Purwanto et al., 2020). The lack of fundamental skills and expertise for 
processing and analyzing data could act as an impediment to utilizing open data 
for generating values (Magalhães & Roseira, 2016; Safarov et al., 2017). In order 
to promote the public adoption of open data, it is suggested that required skills 
and expertise be made available to help open data users participate further (Safarov 
et al., 2017; Susha et al., 2015). 


Conceptualizing the Adoption of Open Data Use 


Open government data can be considered an innovative e-government 
service that allows the public to adopt and use open data for respective purposes 
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without restriction. The public using open data needs to go through the processes 
of data discovery, data exploration, and data exploitation (Attard et al., 2015). 
When accessing and utilizing open data, users have to adapt to various open data 
technologies within an open data infrastructure, including open data portals, 
related application programming interfaces, various data formats, linked data 
vocabularies, and metadata elements (Zuiderwijk et al., 2015). Accordingly, 
as an emerging innovative service in the public sector, open government data 
must obtain the public’s participation and collaboration in forming a sound open 
data ecosystem; the public’s adoption of using governmental open data can be 
conceptualized as a process of innovation acceptance. Specifically, the unified 
theory of acceptance and use of technology (UTAUT) is a commonly utilized 
framework that helps discuss technology and innovation acceptance. Its four 
constructs are performance expectancy, effort expectancy, social influence, and 
facilitating condition (Venkatesh et al., 2003). The four constructs are suggested 
to influence a user’s intention to accept an innovative system or technology. 
Performance expectancy refers to the degree to which an individual believes that 
using a system or technology will help achieve gains in performance. Effort 
expectancy refers to a system or technology’s degree of ease to use. Further, 
social influence means the degree to which an individual thinks that important 
others suggest them to use a system or technology. Facilitating condition refers 
to the degree to which an individual believes that an organizational and technical 
infrastructure or related resources are there to support the use of a system or 
technology. 

As aforementioned, researchers suggest that while open government data 
is a complex phenomenon, investigations should also take into account the 
environment and legal context in which related stakeholders reside (Zuiderwijk 
& Hinnant, 2019). In addition, derived from the perspective of behavioral 
psychology, self-efficacy refers to an individual’s perception of their ability to 
plan and execute certain actions to produce specific performance and reach a 
particular goal (Bandura, 1977). In the e-government literature, researchers 
have suggested that a user’s self-efficacy matters in the adoption and use of 
e-government services (Hung et al., 2013; Rana et al., 2015). They emphasized 
that users could consider their capabilities, which is expected to affect whether or 
not they adopt and use innovative e-government services. 

Furthermore, based on the field of social psychology, the theory of planned 
behavior represents a well-established framework that embraces and discusses 
various factors that affect an individual's intention to perform a certain behavior 
(Ajzen, 1991). In particular, the theory of planned behavior has also been 
extensively adopted by e-governance researchers in, discussing-users' intention 
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toward the adoption and use of innovative government services (Hung et al., 2013; 
Ozkan & Kanat, 2011; Rana et al., 2015, 2016; H.-J. Wang & Lo, 2013). For 
instance, Hung et al. (2013) used the theory of planned behavior to identify the 
factors determining users’ intention to use governmental mobile services. Rana et 
al. (2015, 2016) utilized the theory’s concepts to explore how influential factors 
affect citizens’ adoption of e-government systems. H.-J. Wang and Lo (2013) also 
used the theory as a theoretical framework to investigate the factors influencing 
citizens’ intention to use government websites. According to Ajzen (1991), 
the framework suggests that an individual’s behavioral intention is a function 
comprising three antecedent constructs: attitude toward the behavior, subjective 
norm, and perceived behavioral control. Specifically, attitude toward the behavior 
refers to the degree to which the performance of a behavior is either positively 
or negatively evaluated. In addition, it can be determined by an individual’s 
behavioral beliefs. A behavioral belief refers to the subjective probability that 
a given outcome or experience can be generated by performing a behavior. On 
the other hand, subjective norm means the perceived social pressure to engage 
or not to engage in a behavior. It is pointed out that subjective norms can be 
determined by an individual’s normative beliefs. A normative belief is defined 
as the reflection of an individual’s perceived expectations from other individuals, 
groups, and organizations to engage in a particular behavior. Lastly, perceived 
behavioral control refers to an individual’s perception of their capability to engage 
in a given behavior. It is suggested to be determined by control beliefs, which are 
the perceived presence of factors that may help or hinder an individual’s ability to 
perform a behavior. 


The Proposed Research 

While the number of governmental datasets that have been opened to the 
public keeps growing, the number of applications using open data also increases 
slowly (Najafabadi & Luna-Reyes, 2017; Zuiderwijk et al., 2016). Researchers 
point out that there are difficulties in obtaining people’s interests in using open 
data. Although the public seems to like the idea of open government data 
policies, they do not actively participate in the process of data use (Hellberg & 
Hedström, 2015). The lack of users exploiting open data resources indicates 
the need to understand what factors influence open data use and what strategies 
attract and stimulate users to participate (Attard et al., 2015; Zuiderwijk et al., 
2016). Researchers also suggest that there should be more studies that explore 
open data adoption in different contexts, such as areas, sources, and countries, to 
understand the various factors that influence open data usage of different types. of 
data reusers (Magalhaes & Roseira, 2016; Susha et al., 2015). Findings within 
different socio-technical contexts can help extend the knowledge of how open 
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data policies could be further developed and implemented (Zuiderwijk & Hinnant, 
2019). Therefore, this research explores the influential factors of open data use 
from users’ perspectives in the context of Taiwan’s open government data. The 
aforementioned frameworks are expected to help conceptualize the factors that 
explain the phenomenon of interest with empirical data support. In particular, 
while one of the major motives of open data use is to create business value, this 
study focuses on professional reusers who utilize governmental open data to 
develop innovative applications for business services. 


Research Design and Method 

Since the inception of the Freedom of Government Information Law in 
Taiwan, the Taiwan government has gradually institutionalized related practices 
for the public to access government information and data. In particular, the open 
government data movement has received significant attention from both public 
and private sectors in Taiwan. Taiwan’s central and local government agencies 
have implemented open data policies and established open data infrastructure, 
such as open data sites, to open their datasets. In November 2011, the Taipei City 
government established Taiwan’s first open data website (https://data.taipei). On 
the other hand, New Taipei City also made the debut of its open data portal (https:// 
data.ntpc.gov.tw) in December 2012. While recognizing the critical role and 
value of an open government, at the end of 2012, the Prime Minister of Taiwan 
required the Research, Development, and Evaluation Commission to devise and 
enact open data policies at the central government level. Subsequently, Data. 
gov.tw made its debut in April 2013 and acted as the open data portal for the 
central government agencies of Taiwan. Under an executive order from the Prime 
Minister, each central government agency of Taiwan was required to open at least 
fifty datasets by the end of 2013. The number of total datasets available on Data. 
gov.tw is currently 57,275 (as of June 12, 2022), which has grown significantly 
compared to the number of datasets several years ago (3,187 datasets as of 
December 10, 2014). Meanwhile, the other four city governments of the six 
major municipalities of Taiwan, including Taoyuan City, Taichung City, Tainan 
City, and Kaohsiung City, have enabled their respective open data portals to 
provide services. Most of the other local governments have also participated in 
the open data policy implementation. Noteworthily, the Taiwan government has 
received high rankings in the Global Open Data index for two consecutive years 
in 2016 and 2017—proof of the Taiwan government’s efforts in implementing 
open data policies. Further, in forming a sound open data ecosystem, the Taiwan 
government has also engaged in promoting open data use through various 
activities, such as workshops, hackathons, and open data contests. Hence, given 
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its efforts and commitment to implementing open data policies and promoting the 
use of open data, the context of Taiwan’s open government data presents one of 
the good cases for conducting this exploratory research. 

In addition, regarding open data user studies in the context of Taiwan’s open 
government data, Lo et al. (2014) first employed a survey approach to explore 
data users’ perceptions of related legislations and policies, sharing approaches, 
technological standards and data formats, open data scopes, and open data 
promotion. Similarly, other researchers utilized the survey approach to investigate 
the factors that may influence data users’ satisfaction and intention of open data 
adoption—that is, information quality, user interface quality, computer self- 
efficacy, and social influence (Chen, 2015; H.-J. Wang, 2020). H.-J. Wang 
and Lo (2019) also used a survey approach and indicated the importance 
of top management support and competitive pressure for firms’ adoption of 
governmental open data. However, there is still limited research focusing on 
professional open data reusers in the context of Taiwan’s open government 
data using a semi-structured interview approach to discuss in-depth qualitative 
findings. Accordingly, as previously mentioned, this study is expected to fill this 
research gap. 

The major challenge in this research is the difficulty in identifying and 
connecting open data users. According to the open data principles, governmental 
open data sites can be accessed by anyone from any place at any time without 
registration. Therefore, the researchers of the study found it relatively difficult 
to identify and approach professional reusers who use governmental open data 
to develop for-profit business applications. Consequently, a purposive sampling 
approach was applied to locate relevant candidates for conducting interviews. 
Notably, purposive sampling is usually employed for selecting information-rich 
cases to conduct in-depth qualitative studies (Wengraf, 2001). 

In promoting open data use, the Industrial Development Bureau of the 
Ministry of Economic Affairs (the IDB of MOEA) has been the responsible 
central government agency for holding an annual event for an open data contest. 
Held by the agency for several years, this contest is one of the major government- 
held events for promoting open data use, attracting professional reusers who use 
open data for conducting various business applications. The major aim of the 
contest is to invite and encourage entrepreneurs and private companies to develop 
innovative business applications using governmental open data. The award- 
winning companies of the contest receive high prizes and consultations from 
the government to support their business models and applications. Venture 
capital firms are also invited to the event to invest in the companies they are 
interested in. 
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Therefore, the researchers of this study considered this event a great 
opportunity to approach professional reusers for conducting interviews. After 
directly contacting the IDB of MOEA, the researchers had the opportunity to 
attend the convention of the annual contest held on December 6, 2019. The 
award-winning entrepreneurs and private companies were invited during the 
convention to present their applications using governmental open data. Thus, the 
researchers interacted with those award-winning contest participants to recruit 
interviewees for this study. There were a total of fourteen contest participants 
who agreed to participate in this study as interviewees. 

All recruited interviewees had extensive experience using governmental 
open data in developing business applications. In their respective companies, 
they held key positions, such as product manager, chief executive officer, chief 
technology officer, chief operating officer, technical director, general manager, 
and vice president. Particularly, the interviewees were from various business 
industries and used a variety of open government data, such as geographic data, 
custom data, health, and medical data, weather data, economic data, traffic data, 
transportation data, tourism data, and legal case data. With various professional 
backgrounds and experience in using governmental open data, the interviewees 
provided rich information to the researchers in this exploratory research. In 
addition, while the interviewees of this study were recruited from private 
companies of different business industries, it also helped achieve the goal of 
multiple sources of evidence to enhance the quality of the obtained qualitative 
empirical data. 

Subsequently, the interviews were conducted between March and April 
2020. This study employed a semi-structured interview to collect qualitative 
empirical data, given its flexibility to follow up on new information and explore 
new findings (Bryman, 2004). The interview questions were designed to lead the 
interviewees toward helping the researchers identify the answers to the research 
questions. The interviews were recorded using digital recorders and field notes 
and were transcribed for later data analysis and report writing. The average 
duration of interviews was about one hour and thirty minutes. 

During data analysis, the researchers adopted qualitative data analytic 
techniques to analyze data and identify common patterns. The utilized techniques 
were open coding, axial coding, and selective coding (Strauss & Corbin, 
1998). The interview data were reviewed and analyzed line by line during the 
open coding process. The initial codes were associated with the text segments 
extracted from the interview data, representing the concepts derived from the 
data. Subsequently, axial coding refined, aligned and classified the initial codes 
generated in open coding. Conceptually similar codes; were, then. grouped to 
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form categories. Lastly, selective coding was employed to select and interpret 
the relationships of the categories of concepts from axial coding and confirm 
whether the elaborations and interpretations were inherent in and comply with the 
observed phenomena of this study. Atlas.ti was utilized in this study to analyze 
the qualitative data. 


Findings 
Based on the empirical data analysis, seven influential factors were identified 
in this study: perceived usefulness, perceived effort, external influence, facilitating 
condition, legislation and license, self-efficacy, and perceived risk, which are in 
line with the concepts in the aforementioned literature for conceptualizing the 
adoption of open data use. With qualitative empirical data support, the seven 
identified factors are discussed in the following subsections. 


Perceived Usefulness 

The interviewees indicated that perceived usefulness is important when first 
adopting and using governmental open data. They expected that the obtained 
open datasets could benefit their existing business operations by reducing cost 
and increasing efficiency. In particular, open data is free for all to access, and 
the published datasets may include a variety of fields, such as weather data and 
geographic data, which can be extremely costly and difficult for small businesses 
or entrepreneurs to collect by themselves. For instance, an interviewee (Chief 
Executive Officer, P4_04) explained: 


... The most important help is that governmental open data helps us 
reduce significant operational costs. It was fairly difficult for us to 
obtain geographic data. For instance, it is impossible for my company to 
investigate the geographic distribution of fault lines by itself. We have to 
admit that we don't have the capability and resources to collect such data.... 
(Chief Executive Officer, PA 04) 


Some interviewees further pointed out that, for some datasets, such as 
legal cases involving car accidents, ridership of subway stations, and company 
registrations, the government is the public authority to collect and generate the 
datasets and is usually the only data source that the interviewees claim they have 
to rely on. 

While one of the major goals of open government data is to unleash the 
potential of governmental datasets to spur innovations and economic growth, 
some interviewees also pointed out that open data use could act as a core catalyst 
that drives innovative business models. They expected that open data could 
be integrated with their own datasets to generate applications through dataset 
mashups. For instance, an interviewee (Chief Technology Officer, P2406) stated: 
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...Open data usually represents raw datasets, which means there are plenty 
of opportunities that you can dig or mine some things from the datasets by 
combining other datasets or resources that you might already have at hand. 
For instance, we use the open data of xxx government agency to predict the 
trend of material supply and demand that can be very valuable information 
to our clients.... (Chief Technology Officer, P24_06) 


However, many interviewees indicated that government agencies had 
not opened their needed datasets. A significant gap remains between what the 
government agencies have opened and what the open data users expect to use. 
For instance, the interviewees said that some government agencies do not provide 
their datasets through open data approach. Instead, those agencies provide 
web information systems for the public to check governmental datasets online. 
Nevertheless, those systems need human operations to input search criteria by 
hand, and only limited data records can be retrieved at each query. 

In addition, some interviewees pointed out that their perceived usefulness 
of open data gradually decreases as they gain more experience using some of the 
published datasets. The interviewees also claimed they were not satisfied with 
the data quality. It is indicated that the current data quality of some datasets, such 
as accuracy, completeness, granularity, and timeliness, could not meet data users’ 
expectations. For instance, some datasets might quickly become obsolete and 
contain erroneous data, while their update frequencies remain relatively low. The 
interviewees said that using the datasets, they could generate wrong data analysis 
results or provide inaccurate services to their clients. The interviewees also 
pointed out that they need raw rather than processed datasets. Some interviewees 
even argued that they would decide not to use governmental open data and turn to 
look for other alternatives by themselves. For instance, some interviewees stated 
the following: 


... We have been thinking whether we can use xxx agency's open data to 
drive innovation and enhance our business operation. However, it is a pity 
that the current datasets opened by the agency are really trivial. Honestly, 
the datasets are not useful to fit our need.... (Chief Technology Officer, 
P24 06) 


...In my opinion, the data update frequency seriously matters. If the datasets 
are updated on a daily basis, the data can be very useful to fit our needs. 
Nevertheless, if it takes two or three months to update the datasets just once, 
well, I don't see we can benefit from using the datasets.... (Chief Executive 
Officer, P3 03) 
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...Government agencies have opened many datasets, which cover a variety 
of different areas such as transportation, health, weather, and tourism. 
However, the depths of most of the datasets are relatively shallow and do 
not really fit our needs. What we need may be just a specific area of data; 
nevertheless, we care much more about the depth of data such as its details 
and comprehensiveness.... (Chief Executive Officer, P2_02) 


Perceived Effort 

The interviewees suggested perceived effort as another important factor that 
must be considered. They mentioned that they have to evaluate whether they can 
afford the needed time and resources for using open data. As the interviewees 
claimed, the process of data access and data cleaning can be time-consuming, 
making it challenging for them to obtain and use the datasets they need. 
Governmental open datasets could be scattered in different places rather than on 
a single portal, so the interviewees had to spend significant time on searching 
government websites to look for datasets. For instance, an interviewee (Chief 
Executive Officer, P2_02) explained: 


...We attempt to retrieve the datasets from the unified open data portal, 
data.gov.tw. However, some government agencies may just have their 
datasets published on other open data-related sites or just on somewhere 
of their respective agencies’ websites. Therefore, we have to spend lots of 
effort on finding those datasets from different channels, and sometimes we 
even need to develop web crawlers to parse data from agencies’ websites or 
their online databases.... (Chief Executive Officer, P2_02) 


In addition, the interviewees suggested that most of the datasets in the open 
data portals are static data in open formats, such as CSV, JSON, or XML, which 
meets the three-star requirement of the open data schema. They also mentioned 
encountering the problem of determining when the datasets may be updated. 
Further, they pointed out that having no notification mechanism is relatively 
inconvenient, requiring them to revisit the sites frequently for possible updates. 
This situation also poses a challenge for the interviewees in obtaining up-to-date 
datasets. For instance, an interviewee (General Manager, P5_07) stated: 


...We retrieve many different datasets from the open data sites.. However, 
we have no idea when the datasets may be updated. It doesn’t really make 
sense for us to designate someone to frequently check the sites to see 
whether new datasets are available. In the industry, we are more used to 
connecting API for real-time data exchange rather than a traditional file 
downloading.... (General Manager, P5_07) 
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Furthermore, the interviewees pointed out that government agencies opened 
their datasets with inconsistent formats and fields, a tremendous challenge in 
developing business applications that require processing and integrating open data 
of different central and local government agencies with the same core businesses. 
Some interviewees explained: 


...According to our experience in processing transportation datasets of 
different local government agencies, we notice that some datasets have 
more data fields and some have very limited data fields. What is worse is 
that two datasets may contain data fields having the same names but with 
totally different definitions. Another problem is that the datasets may adopt 
different character encodings. Therefore, humans checking to view through 
the datasets become inevitable, and this process is very labor intensive. It 
is difficult for us to clean and integrate datasets through automatic machine 
processing.... (Vice President, P23_05) 


...We try to enhance our tourism application by using governmental open 
data. However, the tourism datasets actually come from agencies of 
different local governments, and the datasets have different formats and 
fields. I would say those datasets are really fragmented and fairly difficult 
for us to integrate. We are frustrated, and it is unrealistic for us to apply 
the datasets to develop application functions that could be available only in 
some cities. What if our app users plan to travel across cities?.... (General 
Manager, P5. 07) 


Moreover, some interviewees pointed out that even an agency may open 
a dataset that has inconsistent data representations among the data records. An 
interviewee (Product Manager, P7. 09) gave an example: 


...Even within the same dataset, a data field may have different 
representations. For instance, in the address data field, some records may 
use traditional Chinese characters to represent floor and address numbers, 
and some records may use English characters such as ‘f’ or ‘F’ and Arabic 
numerals. The address field also contains different symbols, punctuation 
marks, and abbreviations, which can be very confusing. There is no 
authority control.... (Product Manager, P7 09) 


External Influence 

External influences can be conceptualized as the driver derived from the 
professional reusers' surrounding environment, emphasizing the importance of 
open data policy and encouraging open data usage to establish a sound. open data 
ecosystem. The interviewees indicated that external influences could foster their 
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perception of the importance of open data and draw their intention toward using 
open data. In particular, it was determined that external influences could be in the 
forms of international open data trends, social groups, government promotions, 
and peer organizations. Some interviewees pointed out that they have been 
following the international movement of open government data, which initially 
raised their interest in considering using governmental open data. An interviewee 
(Chief Technology Officer, P24_06) said: 


...We have been observing the international trend of open data development. 
For instance, we notice that the U.S. has done a very good job in opening 
some datasets that are related to our business, which then becomes a driver 
that we start observing the related development in Taiwan and attempting 
to initiate the following adoption and use.... (Chief Technology Officer, 
P24_06) 


The interviewees also pointed out that in the past few years, Taiwan 
non-governmental organizations and social groups have been promoting the 
transparency of government information and the use of open data through 
civic activities such as hackathons that attract both IT professionals and non- 
IT individuals. This trend forms a positive atmosphere that encourages business 
and non-profit organizations to adopt open data for innovative usage and social 
good. While most interviewees are from the software and information technology 
industries, they indicated they are influenced by related non-profit organizations 
and social groups through shared ideology and expectation to consider using 
governmental open data. An interviewee (Director, P8_10) explained: 


...We are indeed influenced by social communities. Particularly, as software 
engineers, we do like the ideas of an open system, open source, and open 
data that promote the principles of transparency and sharing. When we need 
to look for datasets to use, open data then becomes one of the options that 
draw our attention, and we would take it into consideration.... (Director, 
P8_10) 


Similarly, the Taiwan government has designated agencies to promote open 
data use through various activities such as workshops, international forums, 
and open data contests. While the interviewees are within the information 
technology industry, they indicated that they could be influenced by government 
policies and would attempt to see whether they could meet the expectations of the 
policies. Accordingly, some interviewees admitted that they are influenced by the 
government in evaluating the feasibility of using governmental open data in their 
business operations. An interviewee (Chief Executive Officer, P9_11) stated: 
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...I would say that the promotion and encouragement from the government 
raised our initial interests toward open data use. Then, we became interested 
in knowing open data further. Nevertheless, it still takes time to see whether 
open data can really fit into our business model.... (Chief Executive Officer, 
P9 11) 


Some interviewees suggested that they can also be influenced by their peer 
group. It is indicated that when they know that other individuals or companies 
in their industries have been utilizing open data to enhance operation and 
productivity or develop innovative applications, they tend to act more seriously in 
considering whether they should use open data further. 


Facilitating Condition 

Furthermore, the interviewees claimed that it would have a positive influence 
if they received resources and facilitation from others in their surrounding 
environment to support their open data use. It is indicated that the obtained 
resources and facilitation can help reduce the interviewees’ perceived cost of 
using governmental open data. Accordingly, they become motivated to set higher 
priorities for using open data in developing business applications. An interviewee 
(Vice President, P23. 05) described: 


... Well, for a company, using governmental open data can be viewed as a 
kind of trial and investment, and there is a cost for using open data. Through 
the contest, we are fortunate to receive monetary reward and consultation 
from the government, which becomes a driver for us to consider using open 
data further.... (Vice President, P23 05) 


Interviewees also explained that they would like to use open data further 
in their business applications. However, while one of the core parts of business 
applications relies on rich data sources, the interviewees pointed out that they 
looked forward to obtaining more facilitation from the government in terms of 
interacting with government agencies to access more open data that fit their needs. 


Legislation and License 

As professional reusers, the interviewees indicated that their major purpose 
in using open data is to develop business applications. Therefore, the interviewees 
asserted that they needed to carefully review whether related regulations and 
licenses were clear and appropriate to guide their open data usage in their 
respective business domains. An interviewee (Chief Executive Officer, P3 03) 
explained: 


...Practically, when we apply any third-party dataset to our business 
application, we have to study its license carefully., We need to figure out to 
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what extent we can legally use the dataset for business purposes without any 
violation of regulations.... (Chief Executive Officer, P3_03) 


Furthermore, the interviewees suggested that the Taiwan government has 
gradually developed its open data license by following the principles of Creative 
Commons 4.0. Noteworthily, the license has been widely adopted by both 
central and local government agencies in open data initiatives. However, some 
interviewees pointed out that the Taiwan government has not yet enacted specific 
open data law. Government agencies are encouraged but not necessarily required 
to open their datasets. Without specific open data law, the interviewees claimed 
that when they attempted to request more open data from certain government 
agencies, they encountered challenges resulting from the complex bureaucratic 
system and other existing legislations, such as the Personal Data Protection Act 
and the Charges and Fees Act. The existing legislations and regulations became 
barriers, hindering their intentions to use open data further. An interviewee 
(Product Manager, P7_09) gave an example: 


...We have been requesting a dataset regarding the information of the 
nationally registered physicians and the clinics and hospitals where the 
physicians currently practice. However, the responsible government agency 
keeps turning down our request and asserts that this dataset could violate 
Personal Data Protection Act. However, clinics and hospitals usually 
publicly publish the information of their affiliated physicians on websites. 
Patients also need to know the information when they want to make 
appointments. We are really puzzled and still can’t obtain the dataset to 
develop our application.... (Product Manager, P7_09) 


Self-Efficacy 


The interviewees suggested that not everyone has the capability to access 
and use open data directly. In addition to the commonly seen open formats such 
as CSV, XML, and JSON, open data can consist of other specialized formats 
and structures, and domain expertise is usually needed to clean, integrate, and 
interpret datasets. Accordingly, the interviewees pointed out that in order to use 
governmental open data, they must possess sufficient abilities in terms of data 
analysis and software engineering in their respective domains. In particular, as 
professional reusers running business services, the interviewees maintained that 
they are proficient IT developers and maintain high-level domain knowledge 
in their respective fields, implying their confidence in possessing the required 
capability to obtain governmental open data for developing business applications. 
Some of the interviewees stated the following: 
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...Running a data processing company, we would say that domain expertise 
and technical skills all have very important influences on our company’s 
open data adoption. It can be directly related to our confidence in using 
open data..... (Chief Technology Officer, P24_06) 


... Well, because of our domain knowledge, we know how to interpret the 
datasets and apply them to our software applications. Without sufficient 
domain knowledge, we will have difficulty using open datasets. Similarly, 
if we don't have coding ability, we will not be able to analyze the datasets 
and don't know how to use the datasets for value-added purposes.... (Vice 
President, P23 05) 


Perceived Risk 


As professional reusers, the interviewees indicated that it could pose a great 
risk if they solely rely on open data as the only one or the major data source to 
develop business applications. The interviewees pointed out that their current 
open data had quality issues. In particular, the interviewees mentioned that using 
the database could provide inaccurate services to their clients that might incur 
consumer complaints and damage their companies' reputations. Similarly, using 
the datasets to develop strategic business plans may lead to wrong analyses and 
predictions and result in potential operational losses. The interviewees described 
the phenomenon: 


... There is a very high possibility that inaccurate data records exist in the 
open datasets that we adopt to develop applications. Our company could 
suffer loss and receive complaints from the application users. Our clients 
can become less confident in using our applications, and our intention to 
use open data further is negatively influenced.... (Chief Executive Officer, 
P2 02) 


... Government agencies may update their internal databases at any time 
to reflect their daily operations. However, some datasets on the open data 
portals are not frequently updated, and those datasets can become outdated. 
By using the datasets, our system could generate poor services and 
inaccurate results to our app users.... (Product Manager, P7 09) 


Although one of the common purposes of open data is to promote innovative 
applications expected to spur economic growth, some interviewees claimed that 
they act hesitantly and have serious concerns about applying open data to develop 
their core business applications. They mentioned that they were uncertain whether 
their adopted datasets could be continually opened by government agencies. The 
interviewees further argued that it is possible that some datasets might stop being 
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opened, which could bring fatal impacts on startups and businesses if they solely 
rely on using open data to develop their core products. In addition, they pointed 
out that the potential risk exists, which they are not willing to take. Some of the 
interviewees stated the following: 


...I personally have many questions regarding a company using 
governmental open data in its core business model even though the data 
could be used in a very innovative approach. I think it is extremely risky 
to do so. Open data can be applied to develop some added features of an 
application but should not become the core part of the application. If the 
data is stopped being opened, your business will be severely impacted..... 
(Director, P9. 11) 


... Honestly, I am not sure whether the datasets can be continually opened 
and frequently updated. It will be a serious issue if the datasets are no 
longer opened. You can use open data as a supplement to your application. 
However, you should not use open data to develop the core part of your 
business model. Your business could be in jeopardy if the datasets become 
not opened.... (Chief Executive Officer, P3 03) 


Discussion 


The Identified Factors and Their Influences 

With empirical data support, seven factors were identified through the 
interviews with professional reusers. Perceived usefulness and perceived effort 
were found to have the most important influences when professional reusers 
evaluate whether they would adopt and use governmental open data. By using 
governmental open data, professional reusers expect to increase the efficiency and 
reduce the cost of developing business services and applications. Particularly, 
some open data are derived from the domains that private companies are 
not permitted to or are not capable of collecting by themselves. Therefore, 
professional reusers tend to have high expectations toward using governmental 
open data and expect to use the datasets to drive and develop new business 
models or enhance their existing business services. Still, a significant gap remains 
between what government agencies have opened and what professional reusers 
look for. It was found that professional reusers' perceived usefulness toward open 
data use could gradually decrease. At the same time, they remain unsatisfied 
with the quality of the retrieved datasets in terms of accuracy, completeness, 
granularity, and timeliness, which are critical data criteria that professional reusers 
must obtain to provide applications of high business value. 
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Similarly, perceived effort weighs when professional reusers find that they 
indeed have to spend considerable time and resources on the processes of data 
access, data cleaning, and data integration, which seriously contradicts their 
original expectation of increasing efficiency and reducing operational costs 
using governmental open data. As identified in this study, different central and 
local government agencies of the same core business usually open datasets with 
inconsistent data formats, data fields, and metadata information, which poses a 
huge challenge for professional reusers in integrating the published datasets of 
various government agencies for developing business applications. This issue in 
data inconsistency can greatly increase professional reusers' perceived efforts of 
using governmental open data. However, automatic and machine-operated data 
processing becomes very difficult to practice. 

Furthermore, it was also found that professional reusers are still evaluating 
the long-term feasibility of using governmental open data in their business 
services. They are also concerned about its potential risks, which can further 
hinder the government's expectation of unleashing the potential of governmental 
datasets to spur business and economic growth. In the short term, professional 
reusers are afraid of creating inaccurate and flawed services resulting from data 
quality issues, which may negatively impact their companies' reputations. In the 
long term, professional reusers expect to use governmental open data to develop 
applications for long-lasting business services rather than just for a one-time 
side project. Therefore, professional reusers act hesitantly and are concerned 
about applying governmental open data to the core part of their business models 
and applications, as they are uncertain whether their current datasets can be 
continually opened in the foreseeable future. 

Due to professional reusers’ surrounding environment, external influences 
were also found to come from international open data trends, social groups, 
government promotions, and peer organizations to influence professional reusers’ 
intention toward open data use. Nevertheless, external influences tend to act 
as catalysts for professional reusers' initial interest and intention toward using 
governmental open data. The strength of external influences can gradually 
decrease as professional reusers begin using the datasets. Then, their perceived 
usefulness, perceived effort, and perceived risk would weigh more. 

In addition, facilitation from professional reusers’ surrounding environment 
can help reduce costs and motivate their open data use. In particular, for 
professional reusers running startup companies, monetary reward and consultation 
from the government and experience-sharing from other organizations can 
encourage them to use governmental open data. Professional reusers expect more 
facilitation from government agencies to help them obtain more, open datasets that 
meet their needs in developing business applications. 
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Furthermore, professional reusers also need to verify whether their open data 
usage complies with related legislations and licenses because their major purpose 
of using open data is to develop commercial applications. However, this study 
found that a complex bureaucratic system and existing legislations and regulations 
can sometimes become barriers that restrain professional reusers from requesting 
more open data from government agencies. 

Moreover, professional reusers were found to maintain a high level of self- 
efficacy. In particular, they showed confidence in possessing sufficient domain 
expertise and technical skills for using governmental open data. This result 
may contradict the argument in some open data studies that technical skills 
and expertise should be available to facilitate and promote open data use. In 
fact, the general public represents end users, who usually do not directly utilize 
governmental open data. End users usually rely on the services and applications 
provided by professional reusers, who are the direct reusers and have the 
sufficient capability to use governmental open data. Therefore, for professional 
reusers, it is still more important to focus on enhancing their perceived usefulness 
and alleviating their perceived effort and perceived risk to promote the use of 
governmental open data. 


The Implications and an Integrated View of the Factors 

Among the identified factors, perceived usefulness, perceived effort, external 
influences, and facilitating conditions correspond to the concepts of the UTAUT, a 
technology acceptance model. Particularly, according to the qualitative empirical 
data, the two most commonly discussed concepts of the technology acceptance 
model—perceived usefulness and perceived effort—were found to have the most 
important influences on professional reusers’ intention to use governmental open 
data. Therefore, exploring the antecedent factors that may influence perceived 
usefulness and perceived effort is worth pursuing. As discussed in the literature 
review, professional reusers’ use of governmental open data can be conceptualized 
as a process of innovation acceptance by adapting to the open data infrastructure. 
Accordingly, the quality aspects, such as data quality and system quality, of the 
utilized open data portals and related information systems can be considered the 
potential antecedent factors influencing professional reusers’ perceived usefulness 
and perceived effort. The quality factors are also expected to affect professional 
reusers’ perceived risk of using governmental open data— another factor identified 
in this study but not originally discussed in the technology acceptance model. 

In addition, according to the empirical data analysis, professional reusers’ 
perceived usefulness of using open data tends to decrease after using, the obtained 
datasets. External influences also tend to act as an initial catalyst, and the strength 
of the factor gradually decreases after professional reusers use the datasets! 
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Therefore, it is assumed that the influences of the identified factors are expected to 
vary as the time of professional reusers' open data usage proceeds and the related 
using experience accumulates. Accordingly, a longitudinal study can be another 
potential research strategy that can be applied to study the phenomenon further. 

Similarly, as discussed in the literature, other types of open data users still 
exist, such as social reusers and end users (Abella et al., 2019). It is also possible 
that the identified factors can have different influences on the other types of 
users. It is assumed that open data users —impelled by different motivations, 
such as exploring creativity, creating business value, enabling local citizen value, 
addressing global societal challenges, and advocating the open data agenda 
as described by Lassinantti et al. (2019) — may assign different weights to the 
identified influential factors. For instance, among the different types of open data 
users, professional reusers may tend to maintain higher self-efficacy toward their 
open data use than other users, such as social reusers and end users. 

From an integrated view, the identified factors can be further incorporated 
with Ajzen's (1991) theory of planned behavior to represent behavioral 
beliefs, normative beliefs, and control beliefs that determine professional 
reusers’ attitudes, subjective norms, and perceived behavioral control toward 
governmental open data use (see Figure 1). According to the theory of planned 
behavior, professional reusers' attitudes can be determined by different behavioral 
beliefs, which represent the subjective probabilities that given outcomes can be 
produced by the behavior. In this study, perceived usefulness, perceived effort, 
and perceived risk are conceptualized as the outcomes resulting from professional 
reusers' engagement in using governmental open data. The three factors can 
represent either positive or negative outcomes of performing the behavior. 
Accordingly, the three factors can act as professional reusers' behavioral beliefs in 
determining their attitude toward open data use. 

In addition, subjective norms are determined by normative beliefs, which 
refer to the perceived behavioral expectations from other individuals, groups, or 
organizations. In this study, the identified external influences result from social 
groups and the government. As the interviewees indicated that they could be 
influenced by social groups’ ideology and the government's open data policies, 
they would consider meeting their expectations. Therefore, external influences 
from social groups and the government can be related to professional reusers' 
perceived behavioral expectations and act as the normative belief that determines 
their subjective norms toward open data use. 

Furthermore, perceived behavioral control is determined by different control 
beliefs, which refer to the factors that may either facilitate or hinder the behavior. 
In this study, facilitating conditions, existing legislations and regulations; and self- 
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efficacy can either benefit or impede professional reusers’ use of governmental 
open data. Therefore, the three factors are assumed to act as professional reusers’ 
control beliefs determining their perceived behavioral control over open data 
adoption. As shown in Figure 1, incorporating the theory of planned behavior, a 
synthesized view is presented to see how the identified factors act as behavioral, 
normative, and control beliefs that influence professional reusers’ intention toward 
using governmental open data. This synthesized view of the identified factors is 
expected to provide a foundation for later survey-based quantitative research. 


Figure 1. A Synthesized View Integrated with 
the Theory of Planned Behavior 
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Moreover, the findings suggest that there is still a significant gap between 
what government agencies have opened and professional reusers' expectations. 
Apparently, there are blurred areas that must be addressed further. Meanwhile, 
ambiguities and conflicts might exist between the concept of an open government, 
hindering the publication of more datasets to achieve transparency, participation 
and collaboration, and the concept of traditional stewardship in which government 
agencies are required to govern their datasets strictly. It is indicated in the 
literature that governmental open data is defined as non-privacy-restricted and 
non-confidential data, generated using public money and made available for 
the public to access without restrictions (Janssen et al., 2012). However, when 
different open datasets are merged to provide integrated information, information 
could infringe privacy and confidentiality (Yang et al., 2015). Researchers also 
suggest that it is critical to find a balance and resolve the potential contradictions 
between open government data policies and other public values, such as trust, 
transparency, privacy, and security (Meijer et al., 2014). Similarly, as Dawes 
(2010) has pointed out, stewardship and usefulness should be two broad and 


Yang & Wu: To Use or Not to Use? Exploring the Factors Influencing Professional Reusers' Intention ...... 125 


complementary information principles. The principle of stewardship protects 
government information from damage, loss, or misuse and is concerned with 
the assurance of responsibility, validity, and legitimacy. On the other hand, the 
principle of usefulness encourages exploration, application, and innovation. It 
makes government information more accessible and easier to obtain and be used 
by various public and private users. It is suggested that the two principles should 
be considered to help balance the many considerations critical for achieving 
greater government transparency and realizing the public value of government 
information (Dawes, 2010). 


The Practical Implications of This Study 

According to the empirical findings, government agencies may have 
dedicated efforts to open datasets. However, many of the opened datasets do not 
meet professional reusers’ needs for developing business applications, and many 
datasets professional reusers expect to use are still not opened by government 
agencies. Therefore, there is a need to bridge the gap by enhancing professional 
reusers’ perceived usefulness of using governmental open data. The following list 
presents the practical implications of this research: 

il Government agencies should maintain appropriate communication channels 
for obtaining comments and feedback from professional reusers regarding their 
data usage experiences and expectations. For instance, government agencies 
of different business domains should hold public workshops, meetings, and 
forums to provide professional reusers with the opportunities to interact with 
the agencies and express their data needs. Through this approach, government 
agencies can also benefit from having a clearer direction in terms of what 
datasets to open with higher priority. 

Bi According to the Pareto principle (the 80/20 rule; Koch, 1999), 20% of the 
opened datasets may represent those most professional reusers are interested in 
using. Therefore, government agencies can investigate what datasets are most 
frequently downloaded and utilized by open data users. Then, government 
agencies can explore whether those datasets meet data users’ expectations and 
whether more related datasets can be opened further. 

B There is a need to reduce professional reusers’ perceived effort of using 
governmental open data. Government agencies should be continually 
encouraged to use the unified open data portal to publish their open data 
information, which can help simplify professional reusers’ processes of data 
search and data access. In addition, a vertical coordination mechanism can be 
established among the central and local government agencies with the same 
core businesses. For each business domain, a responsible.central government 
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agency can coordinate to create a standardized template that other government 
agencies may adopt in opening their related datasets. Through standardization, 
the barriers to open data use resulting from inconsistent data formats, data 
fields, and metadata information can be reduced when professional reusers use 
open datasets of different central and local government agencies with the same 
core businesses. Similarly, for some central government agencies that could 
open similar datasets, a horizontal coordination mechanism may be enabled 
to set up a unified window for opening datasets. Consequently, professional 
reusers’ uncertainty regarding which datasets they should use can be decreased, 
while those similar datasets usually come with inconsistent data content and 
have different update frequencies. 

Bi When opening their datasets, many government agencies merely put the links 
of their published datasets on open data platforms for users to download. 
However, this approach is still inconvenient for professional reusers because a 
manual operation is needed to download data files. This approach also poses 
difficulty in obtaining up-to-date data. Thus, it is preferred that government 
agencies consider using open API to open their datasets. In this way, 
professional reusers can automate the process of connecting their information 
systems to open API and assign customized query parameters to retrieve up- 
to-date data, which can help professional reusers create high business value 
applications. It is expected that the approach of an open API can greatly 
increase professional reusers’ perceived usefulness and reduce their perceived 
effort in using governmental open data. 

ii Government agencies should continue improving the quality of their published 
datasets, which is critical to enhancing professional reusers’ perceived 
usefulness of open data use. A collaborative data feedback model can also be 
established, which allows professional reusers to collaborate with government 
agencies to improve open data quality. In some data domains, professional 
reusers may be willing to clean, refine and supplement their retrieved open 
data to generate more comprehensive datasets with better data quality in terms 
of accuracy, completeness, and timeliness. The data feedback model allows 
professional reusers to provide enhanced datasets back to government agencies 
with some open licenses or subscription fees. Meanwhile, government agencies 
can benefit from obtaining better quality datasets and re-releasing the datasets 
to the general public. Further, this approach can encourage private sectors, 
such as entrepreneurs and startups, to participate in the process. of open data 
preparation and refinement through the existing infrastructure and foundation of 


open government data. 
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B Another similar approach suggests that the government should facilitate the 
formation of a data market while professional reusers act as the role of data 
intermediary in their respective business domains, as some literature has also 
suggested (Mercado-Lara & Gil-Garcia, 2014; Schrock & Shaffer, 2017; Van 
Schalkwyk et al., 2016). Based on the foundation of open government data, 
professional reusers can directly provide their refined datasets to the general 
public and other businesses as a free public service or commercial service with 
fees. Through this approach, professional reusers acting as data intermediaries 
can help improve the quality of governmental open data with added values and 
make it easier for others to use open data. 

While data intermediaries are capable of providing data services with 
enhanced data quality and guaranteed sustainability based on the existing 
infrastructure of open government data, this approach could be an alternative 
for direct data reusers who are willing to subscribe to the service, particularly 
for those who tend to have high perceived risks of directly using governmental 
open data. Data intermediaries can dedicate their efforts to interacting with the 
data reusers to assist their data usage requirements and problems. This strategy 
also helps reduce the loading that government agencies might have to deal with. 
Particularly, in addition to the current free open data service, it is also worth 
exploring whether government agencies can consider offering service contracts 
with reasonable fee charges as an alternative for professional reusers seeking 
government agencies to provide dedicated data services such as large volume 
and specialized data access. 

B This study found that external influences and facilitation conditions matter. 
Thus, the government should continue promoting open data use through various 
activities, including workshops, forums, hackathons, and contests, which can 
spur professional reusers' initial interest in using governmental open data. 
Through the activities, government agencies can also provide more facilitation 
to professional reusers such as entrepreneurs and startups to assist their open 
data use. Furthermore, as aforementioned, while professional reusers usually 
maintain a high level of self-efficacy in their domain knowledge and technical 
skills, a well-established mechanism that professional reusers can interact with 
the agencies to express their feedback and data needs is the "true facilitation" 
that professional reusers look forward to receiving. 

B In terms of legislation and policy, a designated open data law should be 
enacted. Such a law not only provides clearer guidance and acts as the 
foundation for government agencies to implement open data policies but also 
helps professional reusers reduce their perceived risk and retain their confidence 
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in using governmental open data concerning its long-term sustainability 
and that government agencies will commit themselves to continually open 
datasets. Enacting open data law can also help professional reusers counter 
the institutional barriers resulting from a complex bureaucratic system and 
other existing legislations and regulations when attempting to interact with 
government agencies to request more open datasets. 

B Public and private collaboration is another approach that government agencies 
can consider to encourage professional reusers to use open data (Susha et 
al., 2017, 2019). Specifically, government agencies can invite professional 
reusers to help resolve the pressing challenges using governmental open data. 
Government agencies can also collaborate with professional reusers to open 
more datasets during the process. In this way, professional reusers can have the 
opportunity to develop solutions that meet the needs of government agencies. 
If government agencies are satisfied with the developed solutions, this public 
and private collaboration can also present an opportunity, allowing professional 
reusers to later market the developed solutions as business services to other 
government agencies or companies in the industry. 

B While governmental open data should not include datasets that may infringe 
personal privacy and national security, another approach to bridging the gap 
between what government agencies have opened and what professional reusers 
expect to obtain is the help from open data committees, which have been set 
up in most central government agencies in Taiwan. The composition of open 
data committees can include representatives of government agencies, private 
and public sectors, social groups, academia, and individual citizens. The 
committees are expected to help determine whether some governmental datasets 
that professional reusers request should be opened. Therefore, the designated 
function of open data committees in respective government agencies should be 
well exercised in considering the principles of stewardship and usefulness —the 
two aforementioned complementary information principles proposed by Dawes 
(2010). 


Conclusion 
A sound open government data ecosystem should include both open data 
providers and users. Meanwhile, this research explores and discusses the factors 
determining professional reusers’ intention to use governmental open data. With 
qualitative empirical data support, the identified factors are perceived usefulness, 
perceived effort, external influence, facilitating condition, legislation and 
license, self-efficacy, and perceived risk. Particularly, perceived usefulness and 
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perceived effort are the two major factors derived from professional reusers’ data 
usage experience. Professional reusers also consider the perceived risk of using 
governmental open data for developing business applications in terms of long- 
term data sustainability. As proficient IT developers in their respective domains, 
professional reusers maintain a high level of self-efficacy toward open data use. 
However, external influences and facilitation conditions from their surrounding 
environment must also be taken into consideration. Similarly, existing legislations 
and regulations within the bureaucratic system affect professional reusers when 
attempting to interact with government agencies to request more open data. In 
addition, the identified factors are integrated with the theory of planned behavior 
to present how the factors determine professional reusers’ intention of using 
governmental open data through behavioral, normative, and control beliefs. 
Furthermore, the discussion and implications of this study can provide insights 
to researchers, practitioners, and policymakers regarding potential research 
directions and how open data policies can be further developed and implemented 
to attract open data users. This study conducted in the context of Taiwan’s open 
government data is expected to enrich the current open data-related literature. 

However, there are limitations in the current research. This study uses a 
qualitative approach, in which potential research biases could occur while some 
parts of the interview data may be emphasized more and some could be neglected. 
Similarly, this research uses a purposive sampling approach to recruit relevant 
interviewees for conducting interviews, through which potential sampling bias 
might also occur. Accordingly, there should be more research for exploring 
the complexity of open data use in different data areas, social contexts, and 
countries. In addition, as aforementioned, future research can explore the factors 
influencing different types of open data users, such as social reusers and end 
users. Furthermore, it would be interesting to investigate whether the factors may 
have different levels of impact on different types of open data users. Moreover, 
quantitative research can also be employed to evaluate the strengths of the factors 
identified in this study. 
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创新 应 用 ， 以 促进 经 济 与 新 创 产 业 之 发 展 。 然 当政 府 机 关 已 经 逐 
步 开 放 资 料 集 之 后 ， 开 放 资 料 的 使 用 端 上 人 务 有 不 如 预期 之 情形 。 
因此 ， 本 研究 是 以 我 国政 府 开 放 资 料 的 推行 现 沈 作 为 研究 场 域 ， 
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的 使 用 意愿 ， 经 由 质 化 实证 资料 分 析 所 得 之 影响 因素 为 预期 有 用 
性 、 预 期 投入 、 外 部 影响 、 协 助 情 况 、 法 令 政策 、 自 我 效能 与 预 
期 风险 。 此 研究 结果 与 实务 讨论 可 以 做 为 我 国 相关 政策 研 氨 与 推 
行 之 参考 ， 以 期 增进 资料 使 用 者 的 持续 参与 ， 差 可 对 於 他 国 分 享 
我 国政 府 开 放 资 料 的 推行 经 验 。 
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To 影响 : 
以 新 北市 立 图 书馆 为 例 、 


D pa 


本 研究 旨 在 探讨 侣 湾 公 共 图 书馆 课 和 后 辅 间 对 弱势 儿童 的 影响 ， 以 
突 颖 公共 图 书馆 支持 社会 正义 的 价值 。 本 研究 为 质 性 研究 ， 以 访 
谈 法 为 主 ， 观 察 法 为 辅 苑 集资 料 ， 研 究 对 象 包含 : 22 位 儿童 "13 
位 家 长 \ 八 位 志 工 及 七 位 馆 员 。 本 研究 结果 颁 示 : 门 家 长 对 儿童 参 
与 公共 回 书 馆 课 和 后 辅 二 的 原因 为 : 家 长 缺乏 陪伴 时 间 、 家 庭 学 习 环 
境 不 佳 ` 课 业 需 求 及 餐 券 的 诱因 。 操 儿童 参与 公共 图 书馆 课 和 后 辅 
着 活动 的 内 容 主 要 为 写作 业 和 与 自行 阅读 ， 其 他 活动 则 视 志 工 的 安 
排 ， 例 如 : AR REHM AG BRS tbid 
对 儿童 的 影响 包含 : 培养 阅读 习惯 、\ 提 升 阅读 愉 趣 SERRE 
拓展 学 习 视 野 ` 增 进 人 际 互 动 、 习 得 礼仪 及 提升 心理 状 驴 。 


关键 词 : AAS RARE: BP LE: THR 
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HJ rH 


PR GUESS SCRESCREZODLSS ^ WBUACREEE SA RRA: ^ OBESSE 
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HEE CRRA NR DE FRUSRE ^ HAS BT ay ) ^ Ep Ay 5 8 SU ee Fl) 
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担 ， 因 此 政府 与 非 管 利 机 构 办 理 的 课 后 辅导 对 弱势 家 庭 来 询 是 相当 大 的 文 持 ， 
能 


AUR AC DEFEATS TUR ze (RR SE ^ 2005 ) ° 


aS: > EE TREES A a ie Ba 


在 台湾 ， 许 多 机 构 (例如 : 政府 机 关 、 非 营利 组 积 ) Be A Sy AU RR 


画 需求 而 借用 图 书馆 的 场地 进行 活动 


〈 刘 和 镇宁，2013 )， 然 而， 砚 察 台湾 公共 图 书馆 的 儿童 服务 ， 发 现 自行 办 理 课 
全 辅导 的 公共 图 书馆 亲 不 多 。 本 研究 的 案例 惊 台 湾 第 一 个 将 课 后 辅导 和 纳入 常态 


先 服 务 对 象 ， AT es LAP ` 
身心 障 研 。 


MEARS EET AG T EDS SERE (GRIME > 2014) ,以 国 小 一 至 六 年 级 的 弱势 儿童 为 优 


! 低 收入 户 、 和 社会 局 转 介 高 风 队 家庭 及 


分 析 人 台湾 入 弱势 多 童 办 理 课 后 辅导 服务 的 相关 研究 ， 足 和 纳 出 课 合 辅导 对 多 


珍 、 蔡 佩 娟 ，2013 ; 颜 国 柠 、 宋 美 殉 


童 的 成 长 发 展 具有 正 向 帮助 ， 包 括 : 学 
> 2013) ^ ABSA CLA > 2019 ; R 


TP Flg ^ LESH» 2010 ; Baill 


LA * 2015) > TARH CHE > 2011 ; EHER > 2011) KOH CHEN 


A» 2019; BRIA > 2010) PURE Tai ^ HEPA Ge E jak EE SE SBA 
& » ft dE IS RE (2008 28 2009 4E.) > 新 北市 立 图 书 通 (2013 年 至 今 )、 
E Pd ri Er EH el ERE (2019 4E.) > 但 公共 图 书馆 扮演 著 支 持 儿 童 学 必 发 展 的 角 
E o 与 其 他 服务 机 构 相 比 ， 其 特色 为 拥有 丰富 的 馆藏 资源 、 安 全 与 非 正 式 的 
学 恤 环 境 ， 以 及 开放 时 间 较 长 ， 是 很 通 合 办 理 课 和 后 辅导 的 场 域 。 再 者 ， 和 从 图 


书 迄 的 服务 使 命中 可 以 因 解 到 图 书馆 具有 和 社会 正义 的 理念 (Pateman & Vincent, 


2010) > 公共 图 书馆 马 有 需求 的 儿童 提供 免费 的 课 和 后 辅 半 服 务 有 助 於 实现 社会 正 


ge? AUTRES ^ 探讨 运 项 服务 是 否 对 弱势 匈 童 产生 正面 效益 ， 以 彰显 


课 后 辅导 存在 於 公共 图 书馆 的 价值 。 


台湾 的 公共 图 书馆 於 近 十 年 开始 推动 课 后 辅 半 ， 而 美国 公共 图 书馆 的 课 
folks ee te 1980 FRPC E (Mediavilla, 2001) * 因此 目前 贺 书 资 
讯 学 领域 探讨 课 和 后 辅导 服务 的 相关 文献 大 多 来 自 国外 ， 研 究 大 多 著 重 於 探讨 家 
庭 作 业 中 心 的 服务 规划 与 作法 (Bevin & Goulding, 1999; Cassell & Walther, 2006; 
Mediavilla, 2003, 2018) )， 亦 有 部 分 研究 指出 公共 图 书馆 课 和 后 辅导 对 於 儿 童 具 有 


正 向 影响 (Bailey,1999; Huffman & Rua, 2008; Train & Elkin, 2000) )。 然 而 ， 目 


前 尚 缺乏 研究 探讨 台湾 的 公共 图 书馆 课 和 后 辅导 之 实际 运作 情况 及 其 对 儿童 的 影 
警 ， 骗 疆 补 此 学 术 研 究 缺 口 ， 本 研究 旨 在 探讨 台湾 公共 图 书馆 课 生 辅导 对 弱势 
儿童 的 影响 。 因 此 “， 本 研究 提出 以 下 研究 问题 : 

口 家 长 对 弱势 儿童 参与 公共 图 书馆 课 和 后 辅导 的 原因 为 何 ? 

白 弱 势 儿 童 参与 公共 图 书馆 课 和 后 辅导 的 活动 内 容 筷 何 ? 

丘 公 共 图 书馆 课 和 后 辅导 对 弱势 儿童 的 学 虱 表 现 、 人 际 关 傈 、 行 久 表 现 司 心 


旱 状 况 的 影响 为 何 ? 


HEJER RS : 公共 图 书馆 课 后 辅导 对 弱势 儿童 之 影响 : 以 新 北市 立 图 书馆 为 例 139 


二 、 文 献 探讨 


口 公共 图 书馆 课 和 后 辅导 与 社会 正义 

公共 图 书馆 的 使 命 获 售 著 社会 正义 的 概念 。 和 社会 正 闵 亲人 无 清楚 明确 的 定 
义 ， 西 方 的 哲学 家 已 发 展 出 众多 社会 正义 理论 ， 在 众多 理论 中 持 有 不 同 的 观 
点 ， 造 成 不 同 观 点 的 原因 是 来 自 於 对 ' 正义 ,一 说 有 不 同 的 解释 (Rioux, 2010 )。 
弥合 许多 观点 ， 正 义 具 有 平等 的 概念 。 在 图 书 资 讯 学 领域 中 ， 许 多 政策 及 规范 
和 丝 有 提 到 平等 的 概念 。 国 际 图 书馆 协会 联盟 (International Federation of Library 
Associations and Institutions [IFLA], 2012 ) 发 表 的 ' 图 书馆 员 及 其 他 资讯 工作 者 
的 偷 理 守则 | IFLA Code of Ethics for Librarians and other Information Workers ) 提 
El fed E: HE it E PURA Se he SE SY RS DATE PR SHILA JE 
资讯 的 权利 。 在 平等 的 意 浮上“， 图 书馆 所 追求 的 平等 接近 实质 平等 ， 和 从 多 样 性 
(diversity ) 作为 图书 迄 的 核心 价值 之 一 即 能 果 解 ， 重 视 文 化 与 族群 的 多 样 性 是 
平等 提供 资源 彝 服 务 的 基础 (American Library Association, 2019 )。 美 国 图 书馆 
协会 的 社会 责任 圆桌 会 议 (Social Responsibilities Round Table, 2019 ) 指出 图 书馆 
EIER EE > BE RY: PP SS OT PB NS Se > EFT CL 
善 或 解决 。 轧 了 实践 社会 正义 ，Pateman # Vincent (2010) j E ISTE Bg RT SERE 
ie VSR ERE ^ fe DOK RAIRA C needs-based service ) ^ 将 资源 分 配 
Raa eA + PORE Ss Mam ahs PE > Be Se at hel e BH 
的 服务 来 落实 。 

公共 图 书馆 实施 课 和 后 辅导 为 因应 当前 的 社会 需求 而 发 展 出 的 服务 方式 ， 促 
使 图 书馆 关注 於 儿童 在 课 和 后 活动 的 需求 。 随 著 社 会 环境 的 转变 ， 家 庭 型 态 以 双 
薪 家 庭 各 多 数 ， 父 母 须 忙 座 工 作 ， 无 法 在 儿童 放学 后 和 给予 照顾 ， 论 是 钴 是 儿童 
(latchkey children ) 的 问题 逐渐 增加 (Dowd, 1989 )。 美 国 的 公共 图 书馆 实施 课 后 
辅 半 计 浮 的 初始 原因 郁 许 多 锥 匙 兄 童 会 在 放学 后 到 公共 图 书馆 等 待 父母 ， 而 他 
们 会 在 图 书馆 喧 刚 、 佑 位 或 做 出 其 他 破 壤 秩序 的 行 角 ， 造 成 能 员 的 困 援 ， 硕 解 
决 过 个 问题 ， 站 希 蔚 让 儿童 获得 更 丰富 的 学 性 体验 ， 公 共 图 书馆 因而 开始 发 展 
STA HRDRDOEESPERO REER RA — TB Ze 4: B3 ETRE (Dowd, 
1989; Long, 2000; Mediavilla, 2001 ) 。 

课 和 后 时 间 的 安排 与 儿 重 的 成 长 发 展 有 关 “， 除 了 学 校 的 学 虱 之 外 ”放学 后 的 
非 正式 学 必 是 影 又 兄 童 成 就 差距 的 原因 之 一 (Hartman, 2011)。 BUM TEHERI EES 
教育 之 后， 所 有 儿童 都 能 接受 到 同等 的 教育 ， 然 而 ， 人 台湾 的 教育 制度 越 来 越 强 
调 多 元 学 看 ， 且 台湾 管 利 机 构 的 课 和 后 辅导 相 帝 盛行 ( 何 俊 青 * 2014) * 和 多 了 提升 
儿童 的 竞 委 力 ， 许 多 父母 会 送 孩 子 去 征 帮 班 加 强 学 校 课业 或 去 才艺 班 培 辩 技 
能 ， 补 充 学 校 教育 无 法 提供 或 不 足 的 部 分 。 由 此 显示 学 可 的 差 轴 在 从 放 学 后 ， 
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对 於 弱势 儿童 而 言 ， 学 虱 不 能 只 依靠 


原因 “因此 和 社会 教育 资源 的 提供 就 扮演 了 习 


学 术 


LI 
Bey fe fA (BIBLE > 2009) - 
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AA E SZE 
各 是 造 


BCE ee RB 


公共 图 书馆 为 有 课 和 后 


南 导 需求 的 儿童 提供 服务 ， 尤其 在 经济 和 社会 较 弱 势 


的 地 区 “， 或 学 校 及 家 庭 缺乏 学 必 相 关 资 源 的 儿童 特别 需要 束 和 后 辅导 的 协助 ， 以 


Xe 
HE 


JR HS 


的 特性 ， 为 发 挥 社会 正义 的 基础 ， 有 助 於 改 善 教 


号 公共 图 书馆 课 合 辅 半 实 施 
自 1980 年 代 中 期 ， 美 国 


加 书馆 车手 规划 


系统 规划 出 具 系 和 统 们 


至 五 天 的 课 和 后 辅 


2020) 的 LEAP(Literacy Enrichment Afterschool Program ) HE ， 
F 对 阅读 的 各 趣 、 提 供 家 庭 作业 指 亲 ， 


RED 
儿童 及 青少年 的 


大 部 分 公共 图 书馆 了 


源 的 落差 (Bevin & Goulding, 1999; Bundy, 2006) ° 
[is] E Bis Ech ATTA PRR 


日 此 可 知 ， 公 共 


十 导 的 需求 ， 图书 迄 的 服务 与 资源 免费 开放 和 给 所 有 人 


PNE: 


导 服 务 ， 例 如 : 费城 


素养 能 


(homework center ) KAREZ KEV ESI 1A 


问 提 供 服务 ， HERE AY Pete hake reset 
(homework helper) EPA MB DAF SER FSAI BER ^ MERE a Te HEAR S 
ERASE A ae Bhs 


H 


籍 、 参 考 工具 


op 


Bis 2s 


ASA Et 
Jt [8] E RETI OR e S p ee HS 
Edit Pee ales (Mediavilla, 2001 )。 有 些 美国 公共 图 
及 规模 性 的 课 和 后 辅导 计 画 ， 由 所 辖 分 馆 执 行 ， 提 供 一 通 四 
自由 图 书馆 (Free Library of Philadelphia, 


育 资源 不 平等 的 问题 。 


Ea 


Fk > 


[221 


在 促进 儿童 
5 透 过 读 寡 活动 与 创 客 活 动 增进 


[iU EL E rrt P] A R PR RR e REESE HT RA P RECS 
乎 每 天 参加 。 但 在 美国 与 英国 大 多 数 的 公共 图书 馆 都 会 


aut 


家 庭 作业 中 心 


ax M. 


homework club) > RAA ERY 
E3X (homework help )， 由 辅 半 员 


` 主题 资源 资料 库 等 ， 提 升 儿 


养 终 身 学 性 的 技能 ( 周 倩 如 ，2006 ; Bevin & Goulding, 1999; Mcdermott, 2002; 
Mediavilla, 2001, 2003; Minkel, 2002) )。 除 了 家 庭 作业 指导 外 ， 大 多 数 英 、 美 


公共 图 书馆 在 平日 的 课 和 后 时 间 有 安排 各 式 各 样 的 活动 ， 包 括 : PIS + 
(LEGO) )、 褒 故事 及 其 他 曙 STEAM 教 育 相关 的 活动 。 
大 部 分 公共 图 书馆 课 和 后 辅 着 上 佛 受 到 人 资金 及 人 力 的 限制 ， 因 此 需 仰 束 社区 及 


外 部 机 构 的 支持 ， 建 立 合 作 关 傈 常见 的 合作 机 构 羽 当 计 


4 


=j 


PEIE 


也 政府 部 门 、 学 校 


` 学 


和 馆 、 教 育 机 构 、 志 工 转 体 、 其 他 社区 转 体 或 企业 等 (Cassell & Walther, 


2006; Mediavilla, 2003; Train & Elkin, 2000 )。 在 人 员 配 置 方 面 ， 多 由 支 薪 人 员 


( 馆 员 或 男 聘 一 


abi 


fE ERE 
找 现 任 或 退休 教 


WAR A ) 管理 课 和 后 辅 
(homework helper )， 因 上 经 弗 限制 ， 辅 半 员 通常 是 
1999; Mediavilla, 2018) ° WHAE 
AVE > SRCANRS SSR BRE» OBA AE ALAR ak» TE 


Ange 


PERE” ARAS IRRA B 
| 志 工 担任 (Bevin & Goulding, 
的 志 工 ， 许 多 图 书馆 会 与 当地 中 学 或 大 学 


Æ 
Et 


到 人 双赢 (Hufftman & Rua, 2008; Mediavilla, 2001, 2018 )， 或 到 当地 学 区 
i3 E (Mediavilla, 2018 » IZ» Je gE tH ex EB ZEE RII 
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教育 组 积 ， 尤 其 为 学 生 提 供 课 和 后 辅 半 的 机 构 (Hartman, 2011; Shaffer, 2006 ) > 或 
Ba CES ATE (Cassell & Walther, 2006; Huffman & Rua, 2008 ) * DES 485 
ATTA ° 

APRA DA SAE > Train # Elkin (2000 ) 对 英国 的 八 问 图 书 迄 
进行 个 案 研究 ， 大 量 的 质 性 资料 广 明 家 庭 作业 俱乐部 确实 为 学 生 的 课业 提供 了 
支持 ， 能 鼓励 儿童 独立 学 虱 ， 才 助 儿 童 玩 择 最 合适 的 资源 ， 站 学 必 利 用 资源 。 
Huffman Éd Rua ( 2008 ) 利用 问卷 与 电话 调查 厚 集 和 资料， 者 问 39 位 参与 儿童 的 
父母 或 败 荐 人， 以 上 解 俄 去 俄 作 机 树 高 地 图 书馆 家 庭 作业 中 心 的 有 效 性 ， 研 究 
结果 是 示 所 有 受 芒 者 此 表示 孩子 更 能 理解 作业 “，79% 的 受 芒 者 表示 孩子 的 成 续 
有 所 提升 ，79% 的 受 访 者 表示 孩子 每 天 花 时 间 完 成 作业 。Bailey (1999 ) 利用 问 
卷 、 访 谈 与 计 画 文件 苑 集 和 资料， 调查 学 生 、 老 师 及 家 长 对 於 使 用 家 庭 作 业 中 心 
对 学 业 影 响 的 看 法 ， 研 究 题 示 参 与 后 能 有 效 完 成 作业 “， 且 参与 次 数 越 多 的 学 生 
其 作业 完成 率 越 高 ， 受 访 的 学 生 也 表示 图 书馆 具有 安静 且 安 全 的 学 习 空 间 、 提 
供 印刷 资源 与 教育 软体 及 工作 人 员 的 玫 助 ， 使 图 书包 成 鸭 能 有 效 完 成 作业 的 处 
Bir» xESE ER (2011) 探讨 台北 市 立 图 书馆 普 实施 的 课 和 后 辅导 7 与 阅读 做 朋友 : S 
SS at es , 的 成 效 ， 研 究 指出 透 过 指导 儿童 作业 “， 增 加 作业 的 完成 
度 与 正确 性 ， 和 无 形 中 提高 了 儿童 的 自我 肯定 与 成 就 感 ; 且 活 泪 的 阅读 活动 可 提 
升学 恤 意 顾 低 落 儿 童 的 参与 册 趣 与 学 虱 动 机 “。 另 有 研究 显示 儿童 参与 公共 图 书 
迄 的 课 和 后 辅导 能 提升 儿童 的 学 业 成 续 ( 于 钱 宁 娜 ，2005 ; Huffman & Rua, 2008; 
Mediavilla, 2001; Rua, 2008 )` KS AE (Mediavilla, 2001) ^ ES2EBSSHHE 
(Mediavilla, 2003 )， 以 及 透 遇 完成 作业 来 获得 自信 (Mediavilla, 2003) * BR T3% 
得 课业 的 党 助 之 外， 研究 题 示 儿 童 伍 辅导 员 建 立 眼 好 的 情 药 ， 有 时 也 会 就 生活 
上 的 问题 于 求 建议 ， 和 从 中 多 得 芍 励 及 情感 上 的 文 持 (Mediavilla, 2001, 2018) 。 
课 和 后 辅导 让 儿童 有 机 会 与 辅导 员 及 其 他 学 校 的 学 生 互动 ， 从 他 人 身上 互相 学 
多 ， 透 过 与 同 做 及 辅导 员 之 问 的 正 向 互动 ， 提升 人 际 互动 的 技能 (其 素 真 ， 
2011; Mediavilla, 2001, 2003 ) 与 自信 (Mediavilla,2001,2003 )。 


(=) eR HST D ERR 
SERA alate» BELA HAERE 
RREMANA ^ H—IBBEEERTBEETPEIH RED EAA ^ ABP LL PUSRE 
方式 : 

1. 提供 基本 生活 照顾 与 陪伴 

主要 以 辅助 家 庭 照 顾 功能 为 目的 ， 有 些 机 构 会 提供 餐 点 ， 砍 保 儿 童 的 安全 
与 生理 需求 ， 范 给 予 儿 童 支持 、 陪 伴 与 倾 叉 。 时 间 的 安排 以 陪伴 与 声 助 儿童 顺 
利 完 成 作业 角 主 〈《 刘 镇 守 ，2013 ) * 
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2. 提供 多 元 课外 活动 

提供 课外 活动 的 目的 在 於 使 弱势 儿童 能 多 得 由 富 的 课外 学 各 径 验 。 活 动 内 
容 规 划 则 考量 计 辟 目标、 公费、 人 力 、 服 务 对 象 、 场 地 等 因素 而 有 不 同 作法 。 
常见 的 活动 包含 阅读 、 影 片 欣 赏 、 说 故事 、 做 美 劳 、 团 康 活动 、 有 运动 或 其 他 
才艺 课程 等 ， 另 外 在 寒暑 假期 间 许 多 机 构 也 会 安排 管 队 、 户 外 教学 等 活动 充实 
见 董 的 生活 。 有 些 机 构 也 会 根据 计 辟 目标 设计 活动 ， 将 希望 史 童 学 性 的 主题 融 
入 多 元 的 活动 中 ， 使 内 容 能 兼 具 学 虱 与 娱乐 的 性 质 ， 让 儿童 感到 好 玩 、 有 趣 
CEE > 2014) 。 

3. 提供 课业 辅导 

课业 辅 关 实施 的 内 容 著 重 在 加 强 学 校 的 学 科教 育 ， 课 后 辅 半 人 员 除 了 指 亲 
见 董 在 学 科 作业 中 不 会 的 地 万 ， 更 针对 学 校 课 程 的 内 容 进 行 复 恰 策 教 亲 。 其 中 
' 补救 教学 一 词 居 课业 畏 半 中 的 一 环 ， 其 目的 在 於 降低 弱势 兄 童 的 学 业 成 就 落 
着 ， 汞 提升 其 学 怖 能力， 因此 需要 专业 教育 人 员 带 领 ， UE TER] 
题 、 思 考 解决 办 法 ， 站 规划 有 效 的 教学 策略 ， 以 落实 补救 教学 的 目标 ( 陈 淑 砷 ， 
2009 ; BASIBHE > 2013) ° 

4. 提 供 生活 其 他 层面 学 必 

主要 以 改善 弱势 儿童 的 生活 硕 目 的 ， 提 升 弱势 儿童 在 生活 中 的 各 项 能 力 ， 
通常 会 出 现在 基金 会 或 社会 福利 机 构 办 理 的 课 和 后 辅导 中 。 例 如 透 过 家 事 训 和 张 加 
强生 活 技能 ， 提 升 生活 自理 能 力 ; 运用 自我 管理 、 自 我 探索 、 傅 缚 管理 等 课 
程 ， 增 进 弱势 儿童 的 心理 发 展 ( 谢 依 奴 等 ，2017)。 

弱势 家 庭 在 生活 上 面临 著 许多 困境 ， 例 如 : 不 稳定 的 生活 、 父 母 失业 、 
单亲 、 家 庭 生 活 环 境 差 等 ， 关 些 不 利 因 素 限 制 了 家 庭 发 挥 正常 功能 ， 因 而 对 多 
童 的 成 长 发 展 产 生 不 良 的 影响 ( 陈 雅 铃 ，2006 ; Conger et al., 2002 )。 除 了 家 庭 
的 不 利 因素 外 ， 在 儿童 成 长 的 过 程 中 ， 会 面临 学 恤 、 人 际 关 傈 、 心 理 健康 等 
问题 ， 而 过 些 问 题 此 是 环 环 相 扣 、 相 互 影响 的 。 例 如 : S552 edo MENEHUE 9 
的 教育 资源 及 文化 刺激 ， 使 儿童 在 学 虱 上 容易 处 於 不 利 的 情况 ， 或 因 与 同 做 的 
生活 视野 落差 ， 半 致 伍 同 做 之 问 较 少 话题 共通 性 ， 而 容易 被 包 略 、 排 搁 或 震 凌 
〈 王 育 敏 、 即 靖 惠 ，2009 )。 学 恤 及 人 际 相处 的 问题 ， 若 没有 改善 ， 长 期 下 来 容 
易 使 儿童 产生 情绪 不 稳定 、 自 我 概念 低落 等 心理 问题 ， 或 呈现 不 当 的 外 在 行 加 
(FEK ’ 2012 ; P-L > 2003 ; PRESSE > 2012 ; BNE ` aE > 2010; 
Conger et al, 2002 ) ° 

f A XC RA Bin Sg Se RE E ER d eB ASB» 2009 ; Lacour & 
Tissington, 2011 ) » ARSE (ERR ` RISE > 2009 ; PREFA >. 20032 ^ TTR 
H (ZEIT > 2006 ; Dodge et al., 1994.) ROEA (MRSS > 2002 ; KENES 
LEE > 2010) FASE ME ^ BANAR De PSN TA 953 de fe UU 
个 层面 的 表现 有 正 向 帮助 (参见 表 1)。 
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以 新 北市 立 图 书馆 为 例 


Al 台湾 课 后 辅 学 计 盏 影响 弱势 儿童 四 个 层面 
文献 来 源 


ET 对 弱势 儿童 之 影响 
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E 


Ed G^ 
学 如 态度 较 主动 种 极 、 学 省 


AE mlg » HERES (2010) ; 


PMES ` ZSIR (2013 ) ; 
BRIR REHE (2013) 


p A 
SES FER E 
EH 


AERBRER 


LAMB (2015) 


Fae (2019) ; 


行为 表现 SST R ETE S ” 洪 清 一 (2011 ) ; 
Alita Sn > tnt TERT FE AVR (2011) 
$f& fem HWA (2019) ; 


心理 状况 提升 自信 能 肯定 自我 
要 求 


Eta (2010) 


BETA GE E A TS uu 35 5d aH SR RS BE Ls P eR (EE 


FAS SE Tl ERE EI TTP e REDE ICT ESO CHER ^ SREE AHH 


他 政府 机 关 、 非 党 利和 组 积 ， m EHAE ENA eat — HEURE BC SCRES 
童 学 必 发 展 的 角色 “因此 值得 探讨 公共 图 书馆 课 和 后 辅导 为 儿童 带 来 的 影响 。 此 


WS 


外 “从 文献 中 发 现 课 和 后 辅 半 对 儿童 的 影响 程度 会 因为 课 和 后 辅导 实施 的 方式 、 活 


动 内 容 、 儿 童 参与 的 感受 等 而 有 所 不 同 ， 因 此 探讨 儿童 参与 的 过 程 有 助 於 及 解 


课 和 后 辅导 是 如 何 为 儿童 带 来 影响 。 


E 


站 研究 场 域 


局 容 焦 研 究 千 果 ， 本 研究 根据 实施 课 生 辅导 服务 的 代表 人 性、 规模 性 与 
剖 性 ， 兆 摆 新 北市 并 图 书馆 作 胃 研 究 场 域 。 该 研究 场 域 自 2013 年 开始 实施 课 


时 


RUE ^ 为 台湾 第 一 个 将 儿童 课 和 后 辅导 和 纳入 常态 性 服务 的 公共 图 书馆 ( 黄 思 
蕉 ，2014)， 其 服务 对 象 为 就 革 国 小 一 至 六 年 级 儿童 ， 以 弱势 儿童 为 优 先 参 与 


对 象 。 课 后 辅导 由 志 工 执行 ， 图 书 饮 称 之 角 ' 陪读 天 使 .，' 名 儿童 提供 课业 指导 


与 陪伴 阅读 ， 寒 、 嗜 假期 竟 则 会 举办 多 元 的 活动 。 此外， 服务 提供 弱势 兄 董 餐 
券 ， 当 天 参 鳃 满 规定 时 数 即 可 领取 80 元 餐 券 ， 至 指定 便利 商店 倪 换 等 值 餐 点 。 


受到 新 型 冠状 病毒 肺炎 (Covid-19 ) 疫情 影响 ， 


研究 者 资料 苑 


seu 


F 多 图 书馆 


SHUT ARE SLE BCA EME > 为 确保 能 过 到 足 狗 的 研究 样本 数 ， 研 究 者 透 过 馆 
Ti SS ASSET» TEE ROPE ^ TRIES Re sa 
RB AGHASS ^ RE CHEE EE eta ^ BROT FCA CER eee 


TL S SEES ERR TE ES ^ ES aCe Eta LAS 2 e 


(=) WEA 


A FERS ETSI Ze es SB BR TY SA od a ASM AR dA TR 
SER > AUERI T ARETE ^ EUN FEY S23 5 [8] £5 EERITR 
Ai^ HBENREUA eas» LUE EEC ° SRSA EET 


22 位 、 家 长 13 位 、 志 工 八 位 及 馆 员 七 位 。 
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表 2 研究 场 域 背景 描述 
A fi B f CBE DE Ef FRE GRE 


课 和 后 辅导 服务 2013 2013 2013 2013 2013 2016 2013 
起 始 年 

童 区 面积 1,896.36 159.10 349.75 436.89 1,296.77 290.84 400.00 
(平方 公 尺 ) 

HERM 70,540 18,473 18,731 19,172 48,252 26,762 25,935 
GD 
全 年 儿童 推广 360 70 45 37 81 55 43 
活动 场次 ( 场 ) 
ARRETAN EL JH 非 每 日 ”和 无 Gl JERH # 
集 时 之 志 工 参 Fe ASL ASL CEO Re 志 志 
与 情况 


课 后 辅导 服务 ddA. : 晚上 五 点 至 八 点 
时 间 ia — Kell, : 下 午 一 点 至 五 点 
EE: 下 午 两 点 至 五 点 


1. 弱势 儿童 

本 研究 的 取样 标准 须 符合 以 下 两 条件 : (1) 符 合 领取 和 餐 券 的 资格 ( 轻 图 书馆 
训 定 为 弱势 匈 童 者 可 领取 餐 券 ， 包 含 低 收入 户 、 中 低 收 入 户 、 和 社会 局 转 介 高 风 
疹 家 庭 及 身心 障 厂 儿 童 )。(2) 至 少 参 与 三 个 月 以 上 。 七 间 迄 含 纺 计 有 22 179955 
儿童 参与 研究 ， 儿 童 的 性 别 比 例 相 近 “， 年 各 集中 於 高 年 级 及 中 年 级 。 儿 童 参与 
课 和 后 辅导 的 时 间 以 两 年 为 最 多 ， 其 次 为 三 年 以 上 及 一 年 ; 参与 频率 大 多 数 鸭 一 
肖 四 天 (参见 表 3 )。 


N= 22 

Afi BEE CBE DRE ERE FEE GBE MEG 
性 别 — B 4 2 2 1 0 1 0 10 
zr 3 2 2 1 2 0 2 12 
年 级 ”” 低 年 级 1 0 0 0 0 0 0 1 
中 年 级 2. Y 2 0 1 0 2 8 
高 年 级 4 3 2 2 1 1 O0 13 
参与 课 3 个 月 2 0 0 0 0 0 0 2 
BRS 半年 0 0 1 0 0 0 1 3 
1 年 0 1 0 2 0 0 | 4 
2 年 2 3 1 O0 1 1 0 8 
3F#ILE 3 0 2 0 1 0 0 6 
— H 1 天 0 0 1 0 0 0 0 1 
与 天 数 2 天 0 0 1 0 0 0 0 1 
3K 1 0 2 0 0 0 0 3 
4 天 6 4 0 2 2 1 2 17 


2. 弱势 儿童 家 长 

篇 儿童 的 父母 或 昨 芒 人 。 七 间 迄 舍 中 参与 本 研究 的 家 长 德 计 13 位 ， 和 经 羽 儿 
HAVA ^ 年 具 箔 围 分 布 多 为 40 至 49 套 ， 教 育 程度 分 布 则 以 大 专 大 学 名 最 
4 (BARA) ° 
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RA 参与 研究 家 长 背景 资料 
Affi BRE Cfi DEH ERE FE GEE #4 at 

家 长 身分 BE 3 2 3 1 1 1 2 13 
FERR 30-39 jX, 1 0 0 0 O 1 1 3 
40-49 pa 2 2 3 1 1 0 1 10 

教育 程度 B e 0 1 0 0 0 0 0 1 
IDA: 1 0 0 0 0 1 0 2 
大 专 A 大 学 2 1 2 1 i 0 2 9 

研究 所 以 F 0 0 1 0 0 0 0 1 


3. 志 工 
志 工 角 课 后 辅 半 服 务 的 执行 者 ， 和 负责 陪伴 及 协助 儿童 完成 作业 、 阅 读 ， E 
协助 寒暑 假 多 元 活动 顺利 进行 。 七 问 馆 舍 纺 计 八 位 志 工 参与 本 研究 ( 参见 表 5 )。 


N=8 
Affi BEE CH ERE FEE #4 #t 

ER 20-29 x 0 1 1 0 0 2 

40-49 B% 3 0 1 1 1 6 

教育 程度 高 中 职 1 0 0 0 0 1 

KH/A™S 2 0 0 1 1 4 

研究 所 LE 0 1 2 0 0 3 

RRIS 1 年 以 下 0 1 1 0 0 2 

服务 年 次 1.3 年 0 0 1 1 0 2 

4-6 年 1 0 0 0 1] 2 

7 年 2 0 0 0 0 2 

FRAIR 1 天 2 0 2 0 1 5 

天 数 2 天 1 0 0 1 0 2 

3 天 (暑假 ) 0 1 0 0 0 1 

4. B 

馆 员 负责 承办 课 合 辅 半 服 务 业务 ， 包 含 安排 陪读 志 工 、 规 划 寒 暑假 多 元 活 


动 及 管理 陪读 服务 。 七 问 馆 舍 各 有 一 位 能 员 参 与 研究 ， 和 纺 计 七 位 馆 员 ( 参见 表 6 )。 
表 6 参与 研究 馆 员 背景 资料 
N=7 
年 龄 30-39 BE 
40-49 j 
50-59 j 
60 茂 以 上 
Hea ”未 满 1 年 
1-3 年 


2 
2 
2 
1 
1 
1 
4-6 年 2 
2 
1 
2 
3 
2 


10-15 年 
16-20 年 
课 和 后 辅导 服务 年 次 未 满 1 年 
1-34 
4-64 


mH Th 
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=) Ae ERR TIE 
1. 访谈 法 
本 研究 主要 探 用 半 和 结构 式 访谈 法 (semi-structured interview ) * iin LI—¥t— 
方式 进行 ， 以 访谈 大 网 作为 提问 基础 ， 针 受 芒 者 有 回答 问题 的 方向 。 芒 谈 问 题 
的 编排 原则 及 简单 至 深入 ， 由 较 容 易 回答 的 问题 开始 ， 逐 渐 引 亲 受 访 者 回答 需 
要 更 深入 思考 的 问题 。 研 究 者 在 访谈 开始 前 皆 取 得 受 访 者 同意 ， 清 楚 说 明 参 钼 
研究 目的 、 过 程 与 告知 受 访 者 应 有 的 权利 。 识 谈 过 程 使 用 录音 设备 记 钞 ， 以 利 
访谈 结束 合 完 整 腾 录 资料 。 
童 访谈 大 网 的 主要 内 容 角 询问 兄 董 参与 课 后 辅 半 的 原因 、 参 典 的 活动 内 
容 、 对 自己 的 帮助 。 蔓 谈 时 从 较 容 易 回答 的 问题 开始 发 问 ， 例 如 : 你 为 什么 
会 来 参加 课 和 后 陪读 3,、「 你 在 课 和 合 陪 读 的 时 间 做 了 哪些 事 ? ,上 你 喜欢 参加 让 
后 陪读 吗 ? 等 问题 ^ SRSA TRINA ARS ^ XEMIIRUA TERES E 
考 的 问题 ， 例 如 : MERARI RARA TT ER? a DRE B 
HAGE ° ZRU AMEEN KRAMAR LSPA ` 
ZRIED ` WARA RER EARI E AANE NAE 
RERE o x5 CRRA ANAA E SRS LRN 75 R E 
EREATIASER BIERRA AME ^ [AIRE ERE Ps A SE ° BHE 
FAT RAE A AAS E ERRARE ER RS H sR NR EPS AY 
Mig + RSE SIV NE ^ DR GERE RHIF TERI DU BB Pa 。 

2. 观察 法 

本 研究 亦 探 用 直接 疯 察 法 ， 第 一 作者 实际 到 研究 场 域 现 察 研 究 对 象 在 妹 
后 辅 半 活 动 中 产生 的 行为 ， 在 秽 察 过 程 中 不 介入 活动 ， 以 局 外 人 角度 宙 察 与 记 
BR e AEST EARS ACER EAA oS Ud RPS» PL 
TERR HPS MY SLE. ACER ` TERE ES Pe PES ^ De od 
MBAR ` LRA SZ a ^ M Ce REALI Legg sd od Bee 


四 资料 分 析 

基 於 遵守 研究 偷 理 ， 本 研究 将 研究 对 象 以 匿名 方式 编码 : 儿童 代号 饲 C 
(Children )、 家 长 代号 为 P(Parent)、 志 工 代 号 为 V(Volunteer )、 迄 员 代 号 为 工 
(Librarian > 站 将 参与 本 研究 之 七 间 迄 舍 以 A 至 G 表 示 ， 如 : OFAL 表示 研究 者 
第 一 次 到 访 A 迄 观察 课 合 辅导 活动 的 过 程 。 本 研究 参考 Braun 与 Clarke(2006 ) 
提出 的 主题 分 析 法 (thematic analysis ) 之 步 退 整 理 与 分 析 访 谈资 料 。 研 究 者 首 
先 将 所 昔 集 的 资料 进行 腾 人 和 与 整理 ， 闻 反覆 阅 许 资料 内 容 ， 接 著 进 行 初 始 篇 
码 ， 将 与 研究 问题 相关 的 重要 对 谈 片 段 揪 取 出 来 。 研究 者 慨 定 访谈 纪录 篇 码 方 
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式 角 "访谈 逐 字 稿 -研究 对 象 编码 -页 数 : 行 数 ] ,呈现 方式 角 'I-C1-1:10 J.; BLS 
ROSAS JJ 3t | 抽 察 筷 录 表 - 课 合 畏 半 活 动 和 编码- 研究 对 象 编码 1^ 呈现 方式 局 
T O-A1-C1 j? 

E mS AE RAMA ARA R [8] — Ed» E PS iE 
题 ， 如 : AEs 对 儿童 的 影响 上 , AE | ARAE oT 提 
Ft Pee ae BLE )、 学 业 表 现 进 步 ,等 ， 站 反覆 检视 初 步 分 类 和 后 主题 的 滤 辑 性 ， 检 和 视 
的 方式 分 马 两 个 层面 ， 一 为 雁 认 主题 与 对 话 片 段 的 酒 义 是 否 具 有 一 致 性 ， 二 为 砍 
谢 主 题 内 的 同 质 性 与 主题 间 的 轴 质 性 。 例 如 在 ' 对 儿童 的 影响 ,的 次 主题 壬 ， 研 
守 者 发 现 ' 阅读 速度 提升 EC 增进 写作 能 力 1 的 编码 内 容 此 入 透 过 阅 芒 而 帮助 学 
业 的 发 展 ， 因 此 将 此 两 不 的 次 主题 合 儒 中 和 纲 至 ' 学 业 表 现 进 步 ,此 主题 之 下 。 

研究 者 在 确定 主题 人 后， 给 予 各 个 主题 明确 的 定义 ， 闻 确认 主题 名 称 所 使 用 
Eu ^ DL 对 儿童 的 影响 钨 例 ， 此 主题 的 定义 为 ' 公共 图 书馆 课 和 后 辅 
半 服 务 对 儿童 的 学 虱 表 现 、 人 际 关 傈 、 行 为 表现 与 心理 状况 的 影响 j。 


加 研究 信 度 与 效 度 

ATH FEE ISAT a CR AER» CIE ERSOSRUITCE Se TE pa AE 
OP BCH E (如 表情 、 动 作 )， RRR E E RNO fia ^ LATER 
研究 的 效 度 。 本 研究 使 用 三 角 检 验 法 (triangulation ) * awd ^ KR ^ o5 LE 
馆 员 四 类 不 同 研究 对 象 的 角度 来 交 文 检 核 吹 料 的 正确 性 ， 苛 以 访谈 法 及 观察 法 
两 种 不 同 研究 方法 检 秽 访谈 内 容 与 实际 鞠 察 情形 之 相符 程度 。 此 外 ， 本 研究 使 
用 一 致 的 研究 实施 方式 ， 对 每 位 研究 对 和 象 皆 探 用 相同 的 访谈 程序 ， 透 过 事先 所 
定 的 访谈 大 网 进行 访问 ， 避免 因 不 同 受 访 者 而 影响 取得 资料 的 差 界 性 。 


四 、 研 究 颖 果 


口 家 长 对 儿童 参与 公共 图 书馆 课 后 辅导 原因 

本 研究 早生 家 长 对 儿童 参与 公共 图 书馆 课 合 辅导 的 原因 ， 主 要 包括 : 家 
缺乏 时 间 陪伴 、 家 庭 学 习 刺 境 不 佳 、 课 类 的 需求 、 餐 券 的 疾 因 - 

1. 家 长 缺乏 陪伴 时 间 

公共 图 书馆 的 夜半 服务 ， 提 供 晚 上 需要 工作 而 矮 法 照顾 儿童 的 家 长 一 个 安 
置 的 看 所 : 

之 前 有 在 上 班 ， 所 以 没有 办 法 照顾 ， 学 校 的 课 后 班 没有 到 那 庆 蛇 | PELLIS 

尾 馆 刚好 并 办 这 个 陪读 的 活动 ， 所 以 就 训 她 参加 。(TP12-1.5 ) 
除了 提供 安置 儿童 的 场所 之 外 ， 图 书馆 更 希 敬 儿童 在 过 段 时 关 能 多 得 障 伴 ， 因 
此 章 合 辅导 服务 招募 志 工 陪伴 儿童 ， 以 骆 补 家 庭 功 能 的 缺失 * ESI RARE 
图 书包 是 个 能 使 他 们 感到 安心 的 地 方 ， 也 肯定 志 工 和 第 员 的 照 磊 奥 陪伴 : 


xn 


N 
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RRSP dE xi HE AAZARRARLH AAA) 阿姨 会 帮忙 
AF o LEO o] EUROS X IL TE— RIED] RESEE BNHRRRABK 
的 和 后援 支柱 的 感觉。(ILP8-4:7， 括 号 为 研究 者 所 加 ) 
2. 家庭 学 避 环 境 不 佳 
对 於 家 壬 空间 不 足 、 缺 乏 学 独资 源 的 家 庭 而 言 ， 图 书馆 提供 良好 的 学 铬 环 
境 与 由 富 的 资源 ， 以 辅助 儿童 的 学 性 需求 ， 有 些 家 长 表示 : 
因为 我 们 租 的 房子 比较 小 ， 所 以 我 们 通常 都 是 在 外 面 ， 之 前 他 比较 小 的 时 
候 静 不 下 来 的 时 候 ， 我 儿子 就 跟 我 女儿 然后 会 去 便利 商店 ， 然 后 和 后 来 是 到 
图 书馆 ， 这 超 的 空间 比较 大 ， 而 且 比 较 庆 合 读书 跟 学 习 。(IP11-1:5 ) 
有 些 家 长 表示 唉 然 家 中 有 其 他 家 人 帮忙 照顾 儿 重 ， 但 儿童 在 家 壬 无 法 专心 在 时 
业 上 “， 因 此 希 警 儿童 能 多 多 接触 图 书馆 ， 感 染 芒 书 的 氛围 ， 进 而 增加 儿童 阅读 
的 机 会 。 
3. 课业 的 需求 
AUER REO LHS He SS ERRARE EER BAe La Dial 
课业 上 的 问题 > RES INS AE : 
因为 我 们 经 济 也 有 限 ， 啊 所 以 就 是 说 啊 有 些 那 个 我 不 太 会 的 部 分 ， 要 请 那 
个 陪读 的 …… 志 工 姐姐 教导 他 们 一 下 ， 啊 他 们 的 课业 就 是 会 比较 好 一 点 。 
(1-P4-1:5 ) 
Ae ERA > PSEA EE > RS E REHJBE 
RTEKA ^ MARE SUR LERTE N ^T SRL FL EUER ALT. ， 
ia te T AC] UT] HR BE a Hey © ( I-P4-3:30) 
FRA BRACE ER SER ^ HS ^ MARS RSE * A 
此 需要 陪读 志 工 的 声 助 : 
比如 说 隔 代 教 善 ， 然 后 有 了 时 候 阿 公 、 阿 娘 没 有 办 法 陪伴 他 做 课业 上 的 一 些 
学 习 ， 或 是 并 读 之 类 的 。(1I-L3-1:6) 
此 外 “， 因 轧 有 些 志 工 是 退休 老师 ， 上 有 具有 教学 的 经 验 与 专业 “， 在 课业 上 较 能 狗 引 
着 见 董 ， 也 是 吸引 | 家 长 让 多 童 参 加 的 原因 。 
4. 餐 券 的 诱因 
餐 券 对 从 弱势 家 庭 的 人 径 济 补贴 是 最 实 质 的 帮助 ， 同 时 也 希望 透 过 和 餐 券 的 傅 
助 让 弱势 儿童 多 接 鲁 图 书馆 。 有 些 家 长 表示 因 受 到 餐 券 的 吸引 计 儿 重 参 加 部 和 后 
辅 半 服 务 ， 迄 员 也 靓 察 到 餐 券 确实 是 很 大 的 诱因 : 
有 些 弱势 生 他 们 有 时 候 真 的 学 校 功课 都 完成 了 ， 啊 就 是 因为 晚上 来 阅读 一 
个 小 时 的 话 他 们 就 可 以 拿 礼 券 ， 所 以 他 们 就 会 来 这 站 再 看 书 一 个 小 时 人 这样 
子 。(I-L3-5:8) 
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中 兄 童 参与 公共 图 书馆 课 合 辅 导 活 动 内 容 
因 各 和 通 障 藏 志 工 的 人 数 不 一 ， 且 志 工 来 源 多 元 ， 志 工 的 服务 方式 也 呈现 多 


元 面 狐 ， 因 此 ,儿童 参 加 识 和 后 辅导 的 活动 内 容 也 多 元 ， 以 下 分 平日 放学 后 及 寒 


里 人 


段 襄 明 如 下 : 


1. 平 日 放学 后 
(1) 富 作 业 
风 童 参加 课 合 辅导 ， 大 部 分 的 活动 都 在 写作 业 ， 兄 董 在 写作 业 时 直到 不 会 


的 地 方 可 立即 欧 问 志 工 ， 以 多 得 解答 。 但 是 馆 员 观察 到 有 些 儿 童 不 会 主动 向 志 


工 欧 问 课业 问题 。 多 数 儿 音 表 示 写 完 作 业 和 后 ， 志 工 老 师 会 党 人 检查 作业 “， 避 正 


作业 的 错误 站 和 给 予 指导 ， 也 有 儿童 表示 志 工 不 会 攻 低 检查 作业 。 


本 研究 发 现 儿童 在 写作 业 的 过 程 ， 轻 常 运 用 的 馆藏 资源 是 字典 。 许 多 志 工 


会 引 半 儿童 多 运用 图 书包 的 书籍 作 朋 参考 资源 ， 以 解决 课业 上 的 问题 : 


有 很 多 百科 或 是 专门 的 题目 的 一 些 书 籍 ， 那 他 们 在 作业 上 偶 才 会 碰 到 这 些 
东西 ， 那 就 要 带 他 们 说 去 哪 超 找 资料 ， 阿 找 出 来 再 从 资料 祷 面 去 搜 絮 ， 
或 他 们 自己 去 拿 出 他 们 需要 看 的 一 些 项 目 ， 他 们 可 以 从 这些 项 目 里 面 来 取 
4 ° (I-V5-2:8 ) 


图 书馆 就 是 书 非 常 的 多 ， 那 书 也 是 多 方面 很 多 类 型 都 有 ， 那 像 我 上 次 指导 
e 对 ， 所 以 我 党 得 有 在 图 书馆 这 个 场地 其 实 也 还 
错 ， 就 资源 很 多 这 样 。(I-V4-2:12) 


(2) 阅读 
BAF AKS Bd ER TAS e SUPE SMA RR SDE + MR De d 


UT He LARS PE SR SE ^ AHA E SUE ER S OCR ESR ， 
THESES SE ^ HE ZEISS FS co 儿童 完成 作业 之 后 
HJF ^ ae AY eT Baa SE REES CE el 


WAE » FERRARIS Sd DB eS RDS Sa 
HER Ailes > —HES SH BRE Sie BRA (O-A3-Cl ` O-A4-C2 ` 


O-B2-C9 ` O-C3-C14 ` O-E2-C18 )。 除 了 自行 阅读 之 外 ， 有 些 儿 童 会 和 志 工 共 


zi 


> Aes a RS EIN ZS (O- A4-C2) )。 有 些 儿 童 阅 读 志 工 推荐 的 书籍 和 后， 会 和 


志 工 分 享 心得 。 年 入 较 小 的 儿童 会 苇 志 工 说 故事 :T 比较 小 就 借 向 药 叭 故事 给 他 
鞠 ， 就 等 於 说 有 一 点 说 因为 一 年 级 他 们 也 没什么 功课 。j (I-E6-1:11)。 


(3) 课 业 辅 导 
在 学 校 考 试 前 ， 有 些 儿 童 在 志 工 教导 下 ， 复 属 考 试 内 容 。 有 些 儿 童 有 其 他 


课业 想 加 强 学 虱 的 需求 ， 因 此 王 求 志 工 协助 ， 如 家 长 P4 提 到 儿童 C9 在 学 校 曙 
胶 课 操作 比较 慢 ， 跟 不 上 同学 ， 加 上 家 壬 的 电脑 坏 了 “正好 可 以 利用 图 书馆 的 
TRECE :T 因为 他 电脑 操作 也 是 完全 都 不 行 ， 家 里 的 电脑 也 是 境 掩 也 所 
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DA xe HR ae) (1-P4-2:21 ) > AE SE CO 运用 暑假 期 间 加 强 平日 上 课 不 会 的 
科目 ， 志 工人 带 著 兄 童 C9 和 练 尾 学校 志 脑 课 的 上 课 内 容 ， 一 步 一 步 地 教导 匈 童 C9 
操作 Word 流 程 回 (O-B3-C9 ) : 


V3 : C9， 你 想 要 练习 什么 ? 

Co: 这 个 ， 流 程 图 。 

V3 : 好 啊 ， 那 我 们 用 这 本 书 来 练习 [手指 著 史 童 手 中 的 书 ] 。 

Co: & & iR € CE) 

v3:( 2€ ) ce Er E ID BSUGR TER FEE > BAB? 

C9 : 第 一 个 是 尼 尼 。 

V3 : 好 ， 打 在 框框 里 ， 接 下 来 是 谁 呢 ?(O-B3-C9， 括 号 轧 研 究 者 所 加 ) 


(4) RF 


E Ee d SEAT ll] AB» CER ET SO: 有 时 候 就 是 跟 
同学 跟 我 朋友 堂堂 | (I-C22-1:5 )。 有 些 志 工 偶尔 会 准备 一 些 手 作 活动 与 儿童 一 
起 动手 做 :" 有 时 候 我 会 陪 他 们 做 一 些 抛 纸 啊 ， 或 者 一 些小 小 的 DIY 的 创作 这 
样子 。J (LV6-1:24) ; 还 有 做 美 淮 、 剪 纸 啊 ， 低 年 级 会 带 他 们 做 ， 高 年 级 就 比 
较 没 时 间 ， 功 课 比较 多 」 (1-V8-2:25) o 

(5) 游戏 

部 分 儿童 表示 会 和 其 他 参与 隘 许 的 儿童 一 起 玩 和 游戏 、 聊 天 。 此 外 ， 有 的 和 馆 
铭 有 提供 玩具 馆藏 ， 儿 童 会 和 朋友 一 起 玩 玩 具 :' hw RE MARA X 
是 一 些 者 菜 的 闭 戏 (LILC14-2:21 )， 或 有 的 馆 舍 位 於 公园 旁 ， 志 工会 带 所 有 参与 

党 读 的 儿童 去 公园 动 一 动 ， 也 藉 机 让 见 童 之 问 互 相交 流 。 

2. 寒 、 蠕 假 多 元 活动 

寄 、 暑 假 的 陪读 服务 时 间 不 固定 ， 旱 假 安排 约 二 至 四 届 的 活动 ， 时 间 硕 下 
午 两 点 至 五 点 ， 前 两 个 小 时 为 多 元 活动 ， 和 后 一 个 小 时 筷 写 寒 、 嗜 假 作 业 时 间 。 
2020 年 暑假 的 陪读 活动 主题 是 ' ATTE BEIGE 1 > 配合 108 课 网 将 人 工 吞 茵 纳 入 教 
材 ， 图 书馆 以 此 入 主 题 规划 相关 的 活动 。 儿 童 参 与 的 活动 内 容 包 含 DIY 及 桌 游 
等 ， 透 过 活 科 有 趣 的 方式 ， 于 儿童 接触 到 科学 知识 与 程式 设计 的 概念 :' 在 做 
那个 就 是 …… 就 是 把 它 装 成 一 台 车 它 就 会 跑 (I-C13-2:23 ) ; ' 做 机 器 人 ， 或 是 
做 一 AR 家 长 亡 筷 当年 的 活动 较为 特别 ， 对 论 活 
动 内 容 表示 肯定 :' 他 比较 有 暴 趣 就 是 电脑 类 的 ， 像 这 次 的 AI 他 就 非常 有 典 趣 , 
(I-P6-1:25 ) ; 

往年 暑假 可 能 做 的 DIY 做 的 东西 比较 简单 ， 今 年 暑假 比较 有 ';…':…:: 有 那 

个 …… 比 较 特别 、 比 较 有 意思 。(IP10-2:2 ) 

除了 与 科学 、 科 技 相关 的 活动 之 外 ， lel ESR RPA EIS > 暑假 举办 
的 活动 内 容 多 元 ， 包 含 纵 本 故事 、 E BRAN BAS 
动 包含 电影 欣赏 LC REKAZMDLRREY > 4B 1 (1-C6-1:25) > PERTE : 
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C22) (ICIHI2:3) Jc A+, (I-C17-1:27)， 以 及 自然 科学 课程 OBR 
(1-C16-1:16) ° 


(=) ZF el SS REIR Ce E EE ANEA 

儿童 参与 课 和 后 辅导 之 后 ， 大 多 数 儿 童 的 感受 都 是 正面 的 ， 其 正面 的 感受 来 
自 於 阅 芒 的 乐趣 ， 或 喜欢 参加 寒暑 假 多 元 活动 。 本 研究 明和 纳 弱 势 儿 童 参 与 刺 后 
辅导 之 后 产生 的 影响 ， 包 售 : HARAR ERRE SERES > 
拓展 学 客 视 野 、 增 进 人 际 互动 、 性 得 往 伴 、 提 升 心理 状态 。 

NI SB 
HSH CNS - 陪读 活动 六 没有 规定 儿童 一 定 
要 阅读 ， 但 馆 员 和 家 长 都 融 为 因为 馆 内 图 书 资源 候 富 ， 促 使 儿童 接 仍 书籍 ， 
ET EDM: "他 在 这 过 就 是 可 能 是 环境 的 天 你 吧 ， 就 是 他 自己 会 去 拿 己 来 
看 ， 会 找 自己 想 看 的 书 J (I-P11-2:12)， 另外， 有些 家 长 究 为 图 书包 的 环境 能 圳 
儿童 阅 芒 的 专注 力 提升 ， 长 期 下 来 能 增进 于 芒 的 时 间 : T 好 像 这 个 空间 可 以 让 
他 们 去 把 一 本 着 读 完 ， 好 像 就 是 可 以 比较 静 下 来 读 啊 ，(IL-P3-3:25)。 本 研究 大 
部 分 的 儿童 一 明 参 与 四 天 陪 苇 活动 ， 儿 童 和 家 长 都 表示 透 过 长 时 间 参 与 能 逐 洒 
Heft BHSRA EET 。 

2. 提 升 并 计生 趣 

因为 在 图 书馆 能 自由 天 读 ， 儿 童 可 以 找 自己 有 生 趣 的 书 ， 进 而 对 阅读 产 生 
映 趣 ， 儿 童 和 家 长 表示 参与 陪 疆 之 后 对 阅 苇 更 有 典 趣 ， 因 为 喜爱 并 车， 使 得 儿 
童 在 空间 时 会 主动 拿 起 书 阅读 ， 也 降低 对 3C 产 品 的 做 望 和 使 用 : 

他 们 会 拿 一 些 书 自己 看 ， 打 发 时 间 ， 然 后 我 也 可 以 做 我 自己 的 事情 ， 因 为 

其 实 也 比较 不 会 一 直 吵 著 说 想 要 使 用 一 些 3C 产品 ， 因 为 我 们 家 本 来 就 没 

有 和 电视， 就 是 他 们 会 比较 碑 意 去 天 读 一 些 乙 。(IP2-4:25 ) 


3. 学 业 表 现 进 步 

志 工 的 指导 使 儿童 能 更 快 完 成 作业 : ' 因为 本 来 就 觉得 写作 业 就 是 要 花 很 
久 的 时 间 ， 可 是 在 这 里 陪读 都 有 阿姨 会 细心 地 教 1 (IC14-2:29 )。 许 多 志 工 通常 
都 会 帮忙 检查 作业 “， 儿 童 的 作业 错误 率 因 此 降低 :l 在 这 壬 写 功 课 有 志 工 检查 
比较 不 会 错 ， (IC15-2:26 )， 且 因 豚 有 陪读 志 工 的 指导 ， 见 童 的 成 绩 有 所 提升 : 
O 第 第 有 了 跟 我 说 我 的 成 绩 有 进步 (I-C15-2:28 )， 因 而 自信 心 提升 (I-C823:14 ) 。 
Uta) > AECL IS Ze REMIT EE o 或 有 助 於 增进 写作 
的 能 力 ， 进 而 提升 课业 表现 。 

4. 拓展 学 避 和 视野 

el SRE AS Sele AI ^ RES EER aE ZN OS TA 
的 学 习 或 许 会 对 儿童 有 潜移默化 的 帮助 : 
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这 乾 就 有 一 个 好 处 就 是 书 很 多 ， 而 且 是 不 管 什 么 样 的 书 ， 漫 画 书 也 好 啦 ， 
— E QE d AK — 38 DIY 的 书 ， 或 者 是 一 些 比较 艺 本 性 的 书 ， 他 们 就 是 会 
拿 来 看 ， 我 是 觉得 无 形 中 会 有 一 些 ……: 对 他 们 有 一 些 海 移 默 化 的 帮助 啦 ( 工 
V6-2:16 ) 
HRA? FAR Ae AN aK Be Ze JG el ES RY MIRR : 
可 以 学 习习 到 学 核 以 外 的 知识 ， 因 为 其 实学 校 教 的 就 是 制定 的 ， 那 像 哥哥 他 
就 会 知道 一 些 比较 冷门 的 知识 。(I-P2-3:24 ) 
家 长 也 提 到 让 儿童 选择 他 喜 受 的 、 有 暴 趣 的 书籍 ， 儿 童 能 在 和 无形 中 吸收 许多 知 
识 ， 日 对 於 新 的 知识 较 感 旺 趣 。 此 外 ， 儿 童 筑 家 长 表示 暑假 的 多 元 活动 让 儿童 
原本 的 空间 时 间 更 充实 ， 同 时 也 透 过 活动 增加 儿童 接 角 新 事物 的 机 会 :「 AX 
A (35 885) RS RL HH: WAM EH BD Bae RB (LIP13-1:31， 括 
S Es WIC PIED» BE S SSS es EH efi oS NI ^ SURE LIE PRIA 
己 的 长 处 :上 在 图 书馆 的 一 些 活 动 你 可 以 看 到 他 有 发 挥 的 机 会 CI-L1-10:23) 。 
5. 增 进 人 降 互 动 
在 平日 放学 后 ， 图 书馆 成 为 儿童 与 同 做 、 志 工 及 馆 员 交 流 、 互 动 的 场 域 。 
有 些 儿 童 表示 在 陪读 的 活动 中 交 到 了 好 朋友 : [在 这 和 里 就 是 会 交 到 比较 多 朋友 a 
(I-C14-2:34 )。 家 长 现 察 到 儿童 参与 久 了 之 后 会 提升 社交 能 力 ， 主 要 是 透 过 阅读 
儿 得 与 人 互动 时 的 讨论 话题 : 
比较 会 懂得 讲 一 些小 故事 给 人 家 匠 啊 ， 或 讲 一 些 笑 话 逗 人 家 笑 这 榜 ， 就 是 
人 际会 好 一 点 ， 因 为 就 有 一 些 话题 。(I-P2-4:2) 
透 过 课 和 后 辅 壮 ， 家 长 与 迄 员 之 间 也 建立 起 良好 的 情 藉 ， 迄 员 L1 和 弱势 儿童 家 长 
创 了 一 个 LINE 的 群 和 组， 方便 迄 员 发布 讯息 ， 也 促进 家 长 之 问 的 交流 。 研 究 者 
也 者 察 到 能 员 L1 下 班 之 前 ， 到 陪读 区 域 和 家 长 Pl 聊 儿 童 的 近况 (CO-A3-L1)。 
e. Z (S518 
BEARS AIA SACS RETE GR ^ MAE S Balt EU E C238 ERUIT 
By c SIRS ie c XCEGESEBgSM > AHA Ro SU EBENE : 
( 2 86) SCA IE CA EL — ` FRR ] 那 真 的 是 一 进来 就 把 衣服 就 丢 
了 “， 先 胸 外 套 、 丢 书包 、 丢 鞋 、 丢 便当 “， 反 正 就 是 满 地 丢 这 样子 ， 以 前 
也 会 要 脾气 ， 可 能 不 合 他 意 或 什么 的 话 ， 他 就 会 很 大 声 ， 或 者 是 刚 开 始 看 
书 的 时 候 他 也 不 会 去 珍惜 那个 书 。(I-L1-9:19， 插 号 局 研究 者 所 加 ) 
馆 员 表 示 有 些 弱势 儿童 的 家 长 平时 可 能 较 忙 而 统 於 管教 ， 在 课 和 后 辅导 有 志 工 会 
才 忙 矫正 儿童 不 好 的 行为 ， 或 是 因为 图 书馆 的 环 境 使 得 在 迄 内 的 大 人 都 会 提醒 
儿童 要 遵守 规定 ， 而 行为 的 正 向 改 释 不 仅仅 是 对 儿童 的 帮助 ， 世 是 对 整个 家 庭 
的 帮助 。 
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7. 提升 心理 状态 
多 数 儿 童 皆 表示 参加 课 合 精 半 之 后 变 得 比较 快乐 、 自 在 ， 因 课 后 辅导 的 实 
施 方式 较为 自由 ， 其 氛 团 访 儿童 感到 较为 放 县 、 自 在 :[ 跟 平常 义务 教育 比 ， 
图 书馆 比较 放 歼 、 自 在 ，(1-P1-3:33)。 有 些 家 长 表示 因为 儿童 喜 数 并 读 ， 羡 访 
本 身 就 是 儿童 放 县 与 秤 压 的 方式 ， 因 此 来 图 书包 感到 很 开心 、 自 在 。 其 中 儿童 
C2 的 感受 最 为 明显 ， 他 必得 来 图 书馆 比较 自在 、 没 有 压力 ， 也 变 得 比较 快乐 : 
BRAG AR + ERMA PI AR CHD), | (IC2-2:18， 括 号 为 研究 
者 所 加 )，, ERIS BEES RAE LIEU + ET V8 RANER E ， 
比较 仙 得 如 何 教育 儿童 以 及 和 儿童 相 不 ， 长 期 下 来 儿童 已 对 她 产生 了 信任 感 ， 
儿童 C2 特别 会 和 她 说 在 学 校 遇 到 的 困 凤 : 
CUREFRRMRE RERGRAMS MEMRAM RARE 
说 他 就 能 接受 ， 他 这样 讲 我 今天 就 带 了 一 块 肥皂 要 给 他 [ 笑 ] *(LV8-3:28 ， 
括号 为 研究 者 所 加 ) 
迄 员 也 表示 图 书 蚤 提供 家 庭 和 学 校 之 外 的 环境 陪伴 儿童 ， 志 工 提供 儿童 倾诉 烦 
懂 与 情 竺 的 管道 ， 在 儿童 生活 中 遇 到 欢 题 时 给 予 开导 以 及 心理 支持 ， 对 於 儿童 
的 心理 发 展 有 很 大 的 影响 。 


fio d 


CJ SEES 5 Be BB ZS Te fe) SS Be SD 

本 研究 结果 呼应 了 Dowd (1989) ZS FE [S] SS BE ER Si ee 5o BE 
大 部 分 家 长 认为 图 书馆 是 一 个 安全 的 地 方 ， 而 且 有 人 陪伴 ， 将 小 孩 安 置 在 图 书 
馆 能 使 他 们 感到 放心 。 此 外 ， 本 研究 结果 显示 有 些 家 长 会 到 能 陪伴 儿 鞋 ， 
参与 课 和 后 辅 半 的 主因 为 家 中 人 缺乏 学 性 的 环境 (包括 : 家 祷 空间 太 小 、 缺 乏 学 
的 和 氛围、 缺乏 与 同 傍 互 动 的 机 会 等 )， 以 及 课业 上 缺乏 指导 。 类 似 的 ，Bailey 
(1999) > Mediavilla (2001, 2003 ) ` Train Ed Elkin ( 2000) 亦 谈 到 对 於 家 壬 缺乏 书 
籍 、 资 讯 通 信 技 术 朗 人 备 、 人 合适 的 学 必 空 间 的 学 生 ， 或 是 不 上 解 孩子 的 作业 、 缺 
乏 语言 技能 的 父母 而 阁 ， 公 共 图 书馆 的 家 庭 作业 中 心 尤 其 重要 。 有 别 於 英 国 和 
美国 大 部 分 公共 图 书馆 课 后 辅 半 所 提供 的 服务 。 本 研究 的 案例 提供 弱势 儿童 餐 
券 ， 其 局 儿童 参 铀 课 合 辅 芝 的 原因 之 一 ， 可 以 得 知 餐 券 对 於 弱 历 家 庭 径 济 上 的 
支持 能 镶 吸 引 他 们 前 来 参加 。 

电 史 童 参 与 公共 图 书馆 课 后 辅导 的 活动 内 容 

文献 指出 ， 台 注 非 管 利 组 积 及 政府 为 弱势 儿童 提供 的 课 和 后 辅 半 实 施 方式 
主要 包括 : 提供 基本 生活 照顾 熏 陪 伴 、 多 元 课外 活动 、 课 业 辅 半生 活 中 其 
他 层面 的 学 虱 ( 何 俊 青 ，2014 ; WAE > 2009 ; BRISK 20134 EIUS ， 
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2017)。 本 研究 结果 显示 儿童 参与 的 公共 图 书馆 课 和 后 埔 导 的 活动 内 容 著 重 於 陪 
伴 、 寡 作业 、 立 著 及 寒暑 假 的 多 元 活动 。 公 共 图 书馆 课 和 后 辅导 与 其 他 课 后 辅导 
的 差 届 与 特色 为 公共 图 书馆 拥有 丰富 的 馆藏 与 学 必 环 境 ， 有 助 於 儿 童 获 取 学 属 
UU ^ 只 然 课 后 辅导 服务 的 目标 不 在 於 加 强 学 科教 育 ， 以 降低 学 业 成 承 落 着 ， 
仅 儿 对 作业 的 问题 提供 起 助 ， 但 本 研究 发 现 部 分 志 工 入 退休 老师 ， 会 以 自身 的 
专业 科目 为 儿童 进行 课业 辅导 。 

本 研究 发 现 志 工 在 协助 作业 时 有 各 自 的 服务 方式 ， 有 些 志 工 态 度 积极 ， 会 
主动 关心 儿童 、 欧 问 儿 童 有 无 作业 问题 、 玫 忙 检查 作业 “而 有 些 志 工 划 较为 被 
动 ， 等 待 有 课业 问题 的 儿童 自行 葛 问 ， 较 倾向 对 点 学 科 指导 人 员 。 陈 怡 文 与 林 
HEAR (2014 ) 指出 志 工 必须 主动 与 儿童 进行 互动 、 拉 近 彼 此 距离 ， 人 双方 有 和 上 好 
的 互动 基础 后 能 使 辅导 过 程 更 为 顺利 。 建 议 图 书馆 闪 理 志 工 冲 徕 ， 使 志 工 学 名 
课 后 辅导 相关 的 知 能 ， 蕴 建 并 良好 的 服务 态度 ， 以 提升 服务 品质 。 

相 较 於 英国 与 美国 的 公共 图 书馆 在 平日 放学 后 规划 较 多 团体 活动 ， 本 研究 
发 现 参 与 的 儿童 平 日 到 馆 的 时 间 不 同 ， 或 是 儿童 作业 量 不 一 ， 因 此 课 和 后 辅导 多 
以 一 对 一 方式 进行 。 围 体 活 动 於 寒 、 署 假 举 行 较 羽 通 合 。 


丘 公 共 图 书 通 丙 和 后 辅导 对 儿童 的 影响 

过 去 文献 题 示 ， 人 台湾 的 课 和 后 辅导 对 弱势 儿童 有 正 向 洛 助 ， 其 影响 包括 : 学 
ARH (Pl ^ HERES ^ 2010 ; ER ` XR > 2013 ; ARE ^ RK ， 
2013) ^ ABRBAGA (FLEJJE > 2019 ; RX * 2015) ^ TRAR CUR 2011; 
ERER > 2011) 及 心理 状况 ( 雅 沛 蓉 ，2019 ; 欧 怡 珍 ，2010 ) 四 个 层面 。 本 研究 
亦 见 琉 公 共 图 书馆 课 和 后 辅 半 对 儿童 的 影响 在 过 四 个 层面 芷 有 者 助 。 其 中 影响 最 
大 的 为 学 和 层面 ， 包 括 培 辩 阅 攻 履 慢 、 提 升 阅 攻 册 趣 、 学 业 表 现 进步 与 拓展 学 
EEY 。 

过 去 研究 题 示 ， 公 共 图 书馆 识 和 后 辅 半 对 儿童 学 虱 表 现 的 影响 不 外 乎 是 作业 
完成 度 提高 、 错 误 减 少 、 成 续 进 步 等 (于 钱 宁 娜 ，2005 ; Huffman & Rua, 2008; 
Mediavilla, 2001; Rua, 2008 )。 本 研究 也 有 相同 的 发 现 ， 但 人 数 站 不 多 ， 可 
因 罗 图 书 通 课 后 辅 半 的 实施 方式 站 不 是 系统 性 的 教学 。 此 外 ， 多 数 参 与 图 
识 和 后 辅 半 的 儿童 亦 有 参与 学 校 的 课 和 后 辅 半 班 ， 妈 以 判定 作业 与 成 续 的 进步 
为 图 书 通 课 和 后 辅 半 带 来 的 影响 。 

本 研究 的 实施 场 域 在 图 书 和 能， 在 学 恤 方 面 最 大 的 影响 是 现在 阅 芒 上 ， 
书馆 的 环境 提高 儿童 接 角 书籍 的 机 会 ， 固 定 的 陪 荡 时 间 使 儿童 逐渐 塔 辩 出 阅读 
TB ^ APES Se E (e BS dS © PE} ， 参 与 课 和 合 辅 半 
IVA BUT SLES Be Oe Se ^ 本 研究 发 现 图 书 能 提供 的 活动 是 许多 弱势 
儿童 (尤其 多 取 资讯 的 能 力 与 管道 较 轧 缺乏 的 家 庭 ) ^ 寒暑 假期 间 唯 一 欧 导 的 活 
动 ， 如 过 去 研究 指出 弱势 儿童 可 多 得 的 文化 资本 较 少 ， 遵 致 文化 刺激 和 不足 ( 平 
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育 敏 、 印 靖 惠 ，2009 ; 林 信 志 、 简 璋 成 ，2019 ; Lacour & Tissington, 2011) ， 
因此 寒暑 假期 间 贺 书馆 的 活动 对 於 弱势 家 庭 而 言 更 是 重要 ， 使 儿童 能 藉 此 接 角 
新 事物 、 体 阶 多 元 的 主题 课程 。 公 共 图 书馆 课 和 后 辅导 或 许 对 於 学 校 课业 表现 的 
帮助 较 小 ， 但 图 书 能 的 资源 有 助 於 补充 课堂 之 外 的 学 习 ， 同 时 绩 情 弱势 兄 童 的 
IRAE o 

在 人 际 关 傈 方面 ， DETUR REED EBAY 5d Ba a Ses DS] GELS SB] — EE AR > 
INIRE > ERA AIRE AIDS * BEBE * HEBISRESEBEZJIT]DETT * BERE 
TES eae oak SAO HAAS > 接触 到 不 同年 龄 层 的 志 工 及 馆 员 ， 增 加 了 儿童 
与 人 互动 、 交 流 的 机 会 。Aabg 等 (2010 ) EIA HMB AE HA eB Ca 
meeting place )。 本 研究 也 现 察 到 不 仅 是 儿童 ， 家 长 和 馆 员 之 问 也 建立 起 良好 的 
情 戎 。 本 研究 结果 是 示 部 分 分 馆 因 参与 人 数 较 少 、 参 与 儿童 年 纪 差 距 大 、 儿 童 
到 和 馆 时 间 不 一 ， 而 缺乏 同 做 之 间 的 互动 。 有 些 分 通 因 缺乏 志 工 或 志 工 态 度 较 为 
被 动 ， 也 是 影响 人 际 互 动 的 原因 之 一 。 

在 行为 表现 上 “， 参 与 图 书 迄 课 和 后 辅导 半 少 数 原本 行 饲 表 现 不 佳 的 儿童 有 显 
著 影 响 ， 图 书馆 的 环境 有 助 於 儿童 学 性 遵守 规范 ， 加 上 志 工 与 馆 员 的 纠正 与 管 
Al ESCHER e 

TEACH AM ^ LHR SRR eee Ae ^ AE ER 
HPSAEA JEI SUCESELEH * SURE TE ^ MEA A CRIS o ASS 
BEd — [ZR ERE EPR DS LIB E TS IY ES» Es BER I 
TERES EUER SUE UE SCR: ^ TBC RES ^ WIDE AB SUE EET Re Ba 
RENTS M EIO SEER BS TR EAE CAISSE MD > Mediavilla (2018) 的 研 
FIN Sa LS RR > CSR SRR RIS KR RHE RS 
SCRE MERANGI REPE ^ CES Ta ERU SERE ° 


7N iiti PLE ak 


ASAE FE LAE wk Wt Fe REIS JE [B] 25 REGE EE DR RE Er IE SR RS BI 
{EL ^ DETUR AR SCUBA E [BI S BE EES RE fI 9 35 BY ee TH 
落差 ， 其 影响 层面 包含 : ERE ^ pef Pa» ARTE + HHI 
ERN + SHE AREA Sh > EMR RET LIAR ^ EOS ^ ABET AR 
者 (儿童 、 家 长 、 志 工 ) ACER PII > HGR SREB ^ DI 
SEBEL ^ 进而 提供 更 符合 使 用 者 需求 的 相关 服务 。 

根据 受 芒 家 长 的 回合 ， 家 长 希 刻 志 工 能 更 主动 陪伴 儿童 。 基 於 图 书 迄 的 特 
色 ， 本 研究 建议 图 书馆 增加 陪读 活动 的 多 样 性 ， 例 如 : 为 低 年 级 儿童 褒 故事 、 
中 高 年 航 儿 童 进 行 有 趣 的 阅读 挑战 ( 关 关 、 学 虱 单 等 ) ^ Boss [SE ， 
于 陪读 不 仅 能 鼓励 儿童 独自 阅读 ， 更 能 透 过 和 游戏 方式 让 儿童 与 志 工 及 同 做 产生 
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更 多 互动 ， 糊 此 增添 阅读 乐趣 。 此 外 ， 思 增加 陪读 活动 效益 ， 建 议 图 书馆 办 理 
me Callie ^ UNG ae A Be ET TABS e 

以 本 研究 为 基础 ， 建 蔗 未 来 研究 进一步 探讨 仿 乡 图书 迄 的 课 和 后 辅 半 服 务 成 
效 ， 亚 与 市 区 图 书馆 的 课 和 后 辅导 服务 成 效 进 行 比较 分 析 。 此 外 ， 在 疫情 期 间 ， 
图 书馆 资源 对 弱势 家 庭 更 显 重 要 ， 目 前 公共 图 书馆 课 和 后 辅导 服务 的 对 和 象 角 所 有 
儿童 《包括 一 般 儿 童 和 弱势 儿童 ) ^ ER ART SEER IR FR RE PEE 
对 於 课 和 后 辅导 服务 的 看 法 与 影响 ， 以 多 得 更 全 面 的 研究 和 结果。 最 和 后， 未 来 研究 
可 揉 用 行动 研究 ， 由 学 者 和 实务 者 合作 ， 什 对 实务 上 的 问题 ， 一 同 发 展 解决 的 
策略 ， 淳 实际 落实 与 评估 成 效 。 
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Abstract 


This study aims to investigate effects of afterschool programs in public libraries 
on disadvantaged children in Taiwan, which serves to demonstrate the value 
of public libraries for supporting social justice. This study was qualitative in 
nature. Interviews and observations were employed for data collection. Study 
participants included: 22 children, 13 parents, eight volunteers, and seven 
librarians. Findings of this study show that the reasons for parents allowing 
their children to participate in the program were a lack of time to take care 
of their children, an inadequate home learning environment, their children 
requiring assistance needed for to complete their schoolwork, and the meal 
voucher incentives. In addition, the main activities the children participated in 
in the public library afterschool programs were finishing their homework and 
independent reading; other activities, such as reading together, receiving help 
with their homework, art projects, and games, were arranged by volunteers. 
Finally, the effects of these programs were improvements in relation to reading 
habits, reading interests, academic progress, learning vision, interpersonal 
relationships, etiquette, and mental health. 


Keywords: Public libraries, Afterschool programs, Disadvantaged children, 
Qualitative research 


SUMMARY 
Introduction 


Afterschool programs assist parents in caring for and teaching children, 
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alleviate children safety concerns after school, and support children’s physical and 
mental development. Time arrangement after school is associated with children’s 
growth. The informal learning process is one of the influential factors in creating 
children’s achievement gap, apart from the formal school learning (Hartman, 
2011). Nevertheless, insufficient resources among disadvantaged families make 
it difficult for some children to receive additional learning opportunities. These 
families are consequently more dependent on support from social institutions. 

Social justice is a core public library mission (Pateman & Vincent, 2010). 
Public libraries provide free and equal access to afterschool programs for children 
who need the services to support their learning and development process. For 
children in comparatively disadvantaged economic and social areas, or those from 
schools and families which lack learning related resources, afterschool programs 
are particularly necessary with a view to compensating for the gap in education 
resources (Bevin & Goulding, 1999; Bundy, 2006). Previous studies have also 
shown how public libraries’ afterschool programs could positively influence 
children (Bailey,1999; Huffman & Rua, 2008; Train & Elkin, 2000). 

New Taipei City Library is the first public library in Taiwan that incorporates 
afterschool programs to its regular services (S.-W. Huang, 2014), where services 
for disadvantaged primary school children are prioritized. Afterschool programs 
are executed by volunteers to provide homework help as well as reading 
companionship for children; diverse activities are designed and carried out during 
winter and summer vacations. Other than that, meal vouchers are distributed to 
disadvantaged children upon fulfilling the required time of participation. This 
study takes New Taipei City Library as an example to explore the effects of 
afterschool programs in public libraries on disadvantaged children. 


Methodology 

This was a qualitative study, where interviews served as a primary data 
collection method and observations as a subsidiary one. This study chose seven 
branch libraries of New Taipei City Library as the research settings based on 
their nature in representation, scale, and time length of offering afterschool 
programs. Study participants involved 22 children from disadvantaged families, 
13 parents from disadvantaged families, eight volunteers, and seven librarians 
who participated in the afterschool program. This study adopted thematic analysis 
for analyzing the data gathered, with a focus on reasons why parents let children 
participate in the program, what activities children participated in, as well as what 
effects the programs had on children involved. 


Results and Discussion 
The result has shown that the reasons for parents: allowing’ their children 
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to participate in the program included: lack of time to accompany children, 
inadequate learning environment at home, assistance needed for completion 
of schoolwork, and the incentives of meal vouchers. Different from previous 
research, this study found that meal vouchers served as a strong incentive for 
parents to let children participate in the program. 

Main activities in the public library afterschool programs in which children 
participated were finishing homework and independent reading; other activities 
were arranged by volunteers, such as reading together, homework help, artwork, 
and games. The result has shown the effects of such programs on children, 
including: cultivation of reading habits, development of reading interests, progress 
in academic performance, enhancement of learning vision, boost in interpersonal 
relationships, etiquette acquisition, as well as improvement in mental state. 

Two of the most significant effects are of the reading and learning 
perspectives. The library environment has increased children’s exposure to 
books. The regular reading together time has helped children gradually develop 
their reading habits, and they had experienced the fun in reading as they were 
able to choose books to their preference. This study has found that activities 
provided by public libraries were the only activities in which many disadvantaged 
children (especially those from families lacking in skills and channels of information 
acquisition) participate during winter and summer vacations. Children broadened 
their learning vision as they read and participated in various activities, in which they 
gained more new experiences and learned more diversly in numerous theme activities. 


Conclusion 

This study explored the practical operation of afterschool programs in 
public libraries and the effects of such programs on children involved, in hope 
of filling the research gap in this field. The results derived from this study have 
demonstrated how public libraries fulfilled the social justice mission through 
executing afterschool programs. These programs have brought about positive 
effects in closing the information gap and learning gap of disadvantaged children 
in the following aspects: cultivation of reading habits, development of reading 
interests, progress in academic performance, enhancement of learning vision, 
boost in interpersonal relationships, etiquette acquisition, as well as improvement 
in mental state. 
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f R EG a HH End 
P ABC EDC FY P E PRESE : 
以 医学 领域 为 例 " 


RRE MGE 


OA 期 刊 复 杂 的 APC 有 运作 机 制 ， 随 著 OA 期 刊 的 发 展 逐 渐 受 到 学 术 
界 的 重视 。 本 研究 以 JCR-SCIE 2017 年 版 收录 的 47 个 医学 次 领域 
为 和 范 围 ， 在 扣除 重复 和 合 ， 为 使 资料 具 合 理性 ， 仅 以 收取 固定 APC 
的 2.037 种 期 刊 为 对 象 ， 探 讨 出 版 特征 和 引用 影响 指标 与 APC 机制 
之 关联 性 。 研 究 结 果 笑 示 ，APC SAF BS aA wa BE SE He ZBL 
括 著 的 相关 性 ， 和 与 出 版 频率 及 OA 文章 数 则 分 别 呈 现 低 度 正 相 关 和 与 低 
度 负 相关 ， 显 示 APC 人 金额 可 能 会 受 其 差 县 所 影响 。 在 期 刊 引 用 影响 
指标 方面 ，APC 金额 与 期 刊 正 和 I 值 寺 具有 相关 性 ， 学 科 排 名 则 仅 在 
Q1 和 Q4 区 间 内 具有 显著 性 ， 表 示 排 名 越 好 的 期 刊 APC 收 取 人 金额 可 能 
越 高 ， 而 排名 较 差 的 期 刊 APC AST ABAD RK o ERR ART AR I] 
卷 或 访谈 方式 蝴 解 作 者 投稿 OA 期 刊 的 动机 及 支付 APC 的 意愿。 


关键 词 : 开放 取 用 ， 文 章 处 理 费 ， 期 刊 出 版 特征 ， 影 响 傈 数 ， 
期 刊 排名 ， 立 即 指数 


站 á = 
HO S 
A 


近年 以 开放 取 用 (open access » AROA ) EIERNES HA TIBGA * BZ 
HH FSCS rill ohe G ORR RR Bk (EE HE EE OA 
期 刊 收取 高 家 出 版 费用 的 做 法 ， 也 开始 受到 学 术 社 群 的 关 广 及 讨论 。 


粘 本 文 改写 自 林家 乓 之 硕士 学 位 草 文 “从 开放 取 用 期 刊 出 版 特征 与 影响 为 视角 探 计 
医学 领域 期 刊 文 章 处 理 费 之 研究 ， ， 最 原始 的 研究 蔗 题 则 由 其 指导 教授 林 穴 开 所 
FIRE 。 


p 淡 江 大 学 资讯 给 图 迄 学 系 硕士 
淡 江 大 学 资讯 伍 圆 书馆 学 系 教授 
本 文通 讯 作 者 : wylin@mail.tku.edu.tw 


E 


此 篇 文章 之 同伴 评阅 意见 报告 (Open Point) RARER (InSight Point) 请 至 本 刊 秽 站 查阅 
2022/04/24 投 稿 ; 2022/07/13 修 订 ; 2022/07/30 接 受 


170 教育 资料 与 图 书馆 党 ”59 : 2 (2022) 


有 型 於 以 往 使 用 者 付费 取 阅 (toll access ^ 简称 TA ) 的 出 版 模式 ，OA 出 
版 成 本 由 作者 或 其 所 属 机 构 文 付 ， 过 种 收取 文章 处 理 费 (article processing 
charge， 简 称 APC ) 的 付费 机 制 可 能 会 为 作者 带 来 沉重 的 负担 (Nelson & Eggett, 
2017; Sotudeh & Ghasempour, 2018) > 如何 项 研究 者 提供 有 效 支持 支付 APC 资金 
的 来 源 ， 亦 大 学 入 界 将 面 对 的 课题 。 

若 探 讨 APC 的 收费 价格 ， 多 数 研究 表明 大 型 商业 出 版 公司 收取 金额 明显 高 
其 他 类 型 之 出 版 单位 ， 其 中 又 以 复合 式 (hybrid ) OA 期 刊 APC 金额 更 高 (Jahn 
& Tullney, 2016; Kingsley, 2014; Pinfield et al., 2016; Siler et al., 2018; Smith et al., 
2017; Solomon & Björk, 2012a, 2012b )， 但 复合 式 OA 期 刊 过 种 部 分 文章 保留 传 
MBM GT BAHU EA > DISC SEHE SE ER ACPER RETE ON CZ TM EE (Björk & 
Solomon, 2014; Schimmer et al., 2015; Smith et al., 2017 ) ° 

APC fill AY tb ey CFF OA 出 版 与 还 作 的 核心 宗旨 ， 然 而 各 领域 对 APC 所 收 
HUN SE ARAGUTETERICAK 255€ ^ EPS OA HT AP ean > 推测 可 
能 是 受到 BMC 和 PLoS 两 家 出 版 商 最 早 於 该 领域 控 用 APC 机 制 所 影响 ， 以 致 生 
物 医 学 领域 对 OA 的 出 版 模式 接受 程度 也 相对 较 高 (Solomon & Björk, 2012b ) ° 
PRA ER GAA SEE (2021 ) 探讨 医学 领域 开放 取 用 期 刊 文章 不 理 费 机 制 及 其 金额 分 
布 ， 发 现 医 学 领域 OA 期 刊 APC 金额 莽 界 大 ， 介 於 113 至 6,000 美 元 ， 茜 以 收取 
3,000 美 元 的 期 刊 骨 最 多 。 
路 然 目前 对 於 未 来 OA 期 刊 APC 机 制 的 运作 走向 仍 未 可 知 ， 但 已 有 部 分 研 
完 指 出 APC 是 支持 OA 期 刊 管 和 的 主要 途径 (Davis & Walters, 2011; Laakso & 
Björk, 2012) )。Copiello (2020 ) 更 是 针对 Elsevier APC 的 定价 表 进 行 分 析 ， 表 示 
若 将 其 所 出 版 的 文章 缘 探 用 OA 模式 改行， 要 维持 出 版 利 泗 ， 则 APC 收取 的 平 
均 金 额 将 提高 站 落 在 4,173 至 4.482 美 元 之 问 。 

有 关 APC 费 用 的 订 定 标准 ，Solomon El Bjork (2012b) 指出 其 收费 金额 会 
受 不 同 领域 、 期 刊 出 版 国家 、 文 章 数 ， 以 及 影响 力 影 响 ， 且 期 刊 排名 影响 力 
越 高 的 期 刊 所 收取 APC SEREFHETBXISS * Dorta-González $ (2017 ) 同样 表示 目前 
完全 OA 期 刊 的 影响 力 排名 普 渴 仿 低 ， 而 排名 较 高 的 期 刊 则 明显 收取 较 高 额 的 
APC， ŽRDE BRT Bei KE > HE ORR A EDO Be Ee 
Teal OA IT!) > 3i EE BS a SE SE ( Papin-Ramcharan & Dawe, 
2006; Siler et al., 2018; Solomon & Björk, 2012a )。OA 期 刊 出 版 模式 内 可 提升 研 
完 人 员 取 得 更 广泛 付 讯 的 机 会 ， 但 出 版 单位 收取 高 额 APC 的 运作 方式 ， 是 否 杰 
会 久生 阻 克 作者 出 版 的 问题 (Sotudeh & Ghasempour, 2018) ? 

基 於 对 OA 期 刊 APC 费 用 的 好 奇 ， 日 考 应 到 不 同 领 域 接 受 OA 出 版 模式 的 
7234 (Solomon & Björk, 2012b; Solomon et al., 2013 )， 是 以 生物 医学 领域 APC 普 
3l HABES (Solomon & Björk, 2012b; Walters & Linvill, 2011) * DAS HPT 
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未 普 融 探 诗 期刊 出 版 特征 是 否 可 能 为 影响 APC 金额 的 浴 在 相关 因素 等 考量 ， 本 
研究 从 期 刊 出 版 和 影响 力 的 角度 切 人 “， 著 重 探讨 医学 领域 APC 定价 是 否 与 期 刊 
的 刊 龄 、 频 率 、 文 章 规模 等 出 版 特征 ， 以 及 各 引用 影响 指标 表现 有 所 关联 ， 提 
出 的 具体 研究 问题 入 : 
站 医学 领域 以 OA 模式 出 版 之 期 刊 APC 金额 与 出 版 特征 之 间 的 关 傈 为 何 ? 
白 璧 学 领域 以 OA 模式 出 版 之 期 刊 APC 金额 与 影响 傈 数 、 期 刊 排名 和 立即 
指数 的 关 傈 名 何 ? 


二 、 文 献 探讨 


OOA 期 刊 的 发 展 盟 影响 力 

对 学 术 界 而 言 ， 移 际 移 路 的 出 现 不 只 大 幅 提 升学 术 传 播 的 效率 ， 渤 有 歼 
降低 出 版 印刷 、 篇 排 、 传 静 的 成 本 ， 而 OA 的 生起 无 疑 鸭 学 术 出 版 与 传播 体 
系 带 来 新 的 炙 革 ， 尤 其 有 利 於 发 展 中 国家 研究 人 员 在 知识 取 用 方面 的 需求 ， 
站 对 研究 产生 积极 正面 的 效用 (Baro & Eze, 2017; Smith et al., 2017; Tang et 
al., 2017)。 

OA 模式 的 出 版 成 本 只 比 传统 狐 本 形式 较 低 ， 但 仍 需 人 力 与 物力 的 文 持 ， 
故 其 出 版 运作 成 本 依然 存在 ( 印 炯 友 ，2006 )。 不 同 於 以 往 传统 TA 期 刊 由 出 版 
商 向 图 书馆 等 使 用 者 收取 订阅 费 的 出 版 模式 ，OA 期 刊 出 版 成 本 由 作者 或 其 所 
属 机 构 支 付 ， 过 种 向 作者 收取 APC 的 出 版 方式 无 疑 打破 过 往 的 学 术 出 版 惯例 ， 
质疑 OA 期 刊 运 作 模 式 与 出 版 品质 的 相关 议题 也 逐渐 增加 。 

有 了 关 OA 期 刊 的 发 展 ， 有 将 依靠 传统 训 阅 发 行 忆 期 刊 直 接 转 为 以 OA 的 形式 
出 版 ， 亦 有 仅 发 行 OA 期 刊 如 BMC 和 PLoS 等 之 全 OA 出 版 商 ， 更 有 像 Elsevier 
和 Springer Nature 等 大 型 商业 出 版 公司 探 用 双轨 出 版 模式 ， 於 同一 本 期 刊 中 同 
时 保留 订阅 形式 与 OA 模式 的 文章 ， 让 作者 自由 选择 其 研究 成 果 的 出 版 方式 
(Björk & Solomon, 2012) ° 

HEPA AA OA Peril AE ^ (AA RR Ta ^ ELE SEUR ERE ERE 
At TA 期 刊 来 膏 也 比较 短暂 ， 因 此 学 入社 群 成 员 对 於是 否 将 文章 以 OA 模式 出 版 
仍 会 有 所 顾虑 ， 然 而 无 葵 传 统 TA 期 刊 或 OA 期 刊 ， 研 究 人 员 在 投稿 时 最 为 关心 
的 无 非 是 期 刊 的 品质 与 影响 力 (Anderson, 2004; Baro & Eze, 2017.):* 

对 於 OA 出 版 的 影响 万 ， 自 发 展 以 来 即 存在 许多 委 辩 2 呈 多 研究 人 员 也 党 
斌 利用 不 同方 法 与 角度 探查 其 优 劣 ， 有 以 期 刊 久 单位 做 探讨 (Fukizawa; 2017; 
McVeigh, 2004; Yan & Li, 2018 )， 有 和 单 就 同一 期 刊 中 OA 文章 典 付 费 文章 角度 做 
分 析 (Antelman, 2004; Eysenbach, 2006; Xia et al., 2011 )， 汪 有 学 者 探查 OA 出 
版 形式 是 否 真 的 具有 被 引用 优势 (Harnad & Brody, 2004; McVeigh, 2004; Moed, 
2007; Norris et al., 2008; Sotudeh et al., 2015) > HARIS OAHMBREBREA 
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开 全 文 的 机 人 制 ， 能 提升 文章 的 能 见 度 站 增加 其 被 下 载 、 阅 芒 及 被 引用 的 机 会 ， 
故 在 分 析 影 效力 时 ， 尤 其 关注 OA 模式 出 版 向 第 一 年 立即 被 引用 的 效益 。 


(©) APC HE (EE MC 
E Si BREF EAS I ORC ^ OA 开创 不 同 於 以 往 的 学 术 传播 模 式 ， 但 不 
论 传 统 TA 期 刊 ， 抑 或 新 时 发 展 的 OA 期 刊 ， 期 刊 的 出 版 与 运作 此 需要 成 本 。 
—— Irae Cee ^ AUER ASL RG IBS EO B lE CP RR 
构 支付 APC， 以 维持 出 版 商 的 管 运 ， 故 APC 机 制 的 施行 会 受到 作者 投稿 动机 
奥 径 济 负 的 能 力 影 世 ，APC 运作 的 持续 性 亦 有 待 观 察 及 检 杜 (Nelson & Eggett, 
2017; Sotudeh & Ghasempour, 2018 ) ° 

不 过 也 有 学 者 以 正面 角度 切入 ， 认 忆 OA 出 版 方式 相 比 传统 TA 期刊 更 具 
场 潜力 ， 因 有 支付 APC 的 压力 ， 故 作者 在 投稿 时 即 须 评估 该 期 刊 APC 金额 
否 与 自身 的 出 版 需求 相符 ， 促 使 管 利 性 出 版 商 为 鹃 引 更 多 作者 投稿 ， 进 而 努 
精进 所 提供 的 服务 与 APC 费 用 的 合理 性 (West et al., 2014) ° 

有 上 关 APC 费 用 的 收取 “， 先 前 研究 已 发 现 不 同类 型 出 版 商 APC 定 价 金额 有 
HARA (Solomon & Bjork, 2012b; Pinfield et al., 2016 )， 谱 费用 又 主要 集中 支 
付 给 大 型 商业 管 利 性 出 版 公司 (Smith et al., 2017)。Walters E Linvill (2011 ) All 
提出 不 同 看 法 ， 裔 筷 大 型 商业 出 版 商 与 非 管 利 出 版 章 位 所 收取 的 APC 金额 中 位 
BERDA > APC 金额 差 轩 主要 受 不 同 领域 影响 ， 闻 以 生物 学 和 医学 领域 所 收 
取 的 费用 最 高 

不 同 出 版 机 构 APC 的 计价 方式 也 有 所 不 同 ， 出 版 商 声 称 APC 是 为 文 付 文 
章 的 篇 辑 、 排 版、 审查 工作 ， Hd ded fer] ERU ERE HH A ( Monson et 
al., 2014) > (ERZE HIJE TRA AA ES ， AA EAU <p AR tL ER o MKEK 
EA ARETE (2021 ) 研究 JCR-SCIE 医学 a. 665 种 期 刊 的 APC， 发 现 该 领域 期 刊 
APC 可 整理 中 生成 六 大 计 费 模式 ， 分 别 为 收取 固定 金额 4(74.95% )、 依 文章 流通 
限制 程度 (11.53%)、 不 向 作者 收费 之 补贴 型 期 刊 (5.15%)、 依 文章 类 型 或 篇 幅 
(3.42% )、 作 者 身分 (2.75% ) 和 其 他 计价 方式 40.28% )， 以 收取 固定 APC 金额 
的 期 刊 饲 最多。 

若 圳 和 结 OA 期 刊 APC 人 金额 与 影响 力 的 关 傈 ， 相 关 研 究 指出 OA 期 刊 的 发 
展会 受到 期 刊 出 版 机 构 类 型 、 期 刊 出 版 规模 熏 国 家 政策 的 影响 (Gaddietal.， 
2018 )， 且 APC 的 标准 也 因 出 版 地 区 、 文 章 数 、 学 科 类 别 及 期 刊 影响 力 而 有 所 
ZEH] (Solomon & Björk, 2012b )， 但 也 有 以 印度 期 刊 态 对 和 象 的 研究 指出 ，APC 金 
ARR TS ICEREUE TUS REDISSIGYG f ECCE P (Mukherjee, 2014)。 

TS RR EA PC SEAHBATTHERIAISS ^ BT DETUR EI te CS Ed > BUA 
5 [887 HERES al A EPR SET PRAY ( Budzinski et al., 2020; Mukherjee, 2014; 
Pinfield et al., 2017; Smith et al., 2017; Solomon & Bjoerk, 2012a, 2012b; Wang et al.; 
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2015; Yuen et al., 2019 )， 且 多 数 研究 表明 期 刊 影响 力 伍 APC 金额 的 高 低 具 有 相 
关 性 。 

Solomon # Björk (2012b) 指出 ， 在 JCR 中 具有 高 影响 傈 数 期 刊 所 收取 的 
APC 费 用 局 最 高 ， 平 均 费 用 毅 1,553 美 元 ， 而 在 JCR 中 影响 力 较 低 的 期 刊 则 多 
由 非 欧 美的 国家 所 出 版 ， 且 期 刊 收取 的 APC 费 用 较 低 。Asai(2021 ) 则 是 分 析 
BMC 和 Hindawi 两 大 OA 期 刊 出 版 商 APC 金额 释 化 的 因素 ， 发 现 随 著 引用 次 数 
的 增加 APC 金额 也 随 之 上 涨 。 

然而 ， 也 有 研究 指出 复合 式 OA 期 刊 APC 的 定价 与 期 刊 影响 力 问 的 关 傈 很 
SERE Bjork & Solomon, 2014 ) sYuen 等 (2019 ) 更 比较 APC 人 金额 典 IF、h-index 、 
SJR、Eigenfactor、Article Influence Score 和 hs 指数 过 六 项 期 刊 引 用 影响 指标 问 
的 相关 性 ， 研 究 和 结果 表示 APC 和 与 期 刊 影 响 力 相关 性 较 低 ， 站 呼 税 作 者 在 投稿 前 
应 其 慎 评估 。 

若 从 文章 使 用 层面 评估 APC 的 收费 金额 ，Hampson Bl Stregger ( 2017 ) RA 
APC 局 文章 出 版 向 永久 使 用 的 一 次 性 成 本 ， 故 怖 上 解 出 版 机 构 APC 的 收费 禹 文 
章 使 用 效益 ， 浓 斌 从 文章 使 用 角度 探讨 APC， 人 研究 络 果 显示 OA 文章 位 在 文章 
出 版 三 年 后 的 每 次 使 用 成 本 较 低 ， 但 有 别论 传统 TA 期 刊 文章 有 受 订阅 机 构 内 人 
员 使 用 之 限制 ，OA 文章 因 可 公开 让 大 众 取 并 ， 故 随时 间 推 移 每 次 使 用 成 本 将 
下 降 更 多 ， 透 过 识 疯 点 的 切 和 人 ， 期 刻 提 供 图 书馆 新 角度 衡量 OA 模式 出 版 的 价 
直 ， 以 及 评估 探 用 OA HiT tie TA 期 刊 的 投资 报酬 率 。 

Smith 等 (2017 ) 同样 为 评估 OA 文章 在 全 球 卫 生 研 究 领 域 中 的 使 用 、 成 本 
与 影响 ， 检 索 PubMed 2010 EE 2014 4E[U] E TE E EK RE ERE ES ER E Iz ^ MET 
FOA Hh 627 f CHA APC TER] > SEERA RI ES 170 万 美元 ， 平均 每 位 
研究 者 需 支 付 2,732 美 元 的 APC， 且 有 93.4% 文 章 APC 是 被 国际 最 知名 的 10 家 
出 版 商 期 刊 所 收取 ， 其 中 又 以 Elsevier 位 居 第 一 。 
FES OA FR APC BS Hil ET SS FY hie ri ESSERE * OA 期刊 每 
年 的 APC 金 额 也 略 有 不 同 ， 故 研究 人 员 在 选择 将 研究 成 果 以 OA 形式 出 版 时 ， 
仍 应 考虑 出 版 机 构 收 取 APC 金额 的 合适 性 ， 其 至 可 呼 往 人 资助 单位 或 负责 机 构 制 
4E APC 相关 的 补助 政策 ， 以 创造 合适 的 投稿 环境 (Bj6rk & Solomon, 2014 )。 


三 、 研 究 方法 


C) WEST 

AACA AS HaT ETE JCR-SCIE 2017 FARES A SER OA HAT » 
EES BC BE FY Wos HEY SCI-EXPANDED Bier E JCR 被 标示 为 非 OA 期 刊 但 实际 
EH OA SEZ SUT ^ DURE AGE FREER AD APC peril iT > 
站 探讨 各 期 刊 相应 之 APC 对 期 刊 出 版 特征 与 引用 影响 指标 的 关联 性 。 


mu 


= 
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PATE Base PR AW ICR E Wos pij Rit ees} > Hc EL BE FS RR AS Pa} J 
ZAR OS RAE Dey Fl Batt Be SE BY ARR > DRL ATE USER. SRI AE se E. 
Clarivate Analytics 公司 所 提供 的 Global Institutional Profiles Project (GIPP ) 学 科 
领域 分 类 表 内 Clinical, Pre-Clinical & Health $45.2 FEHER BH TES E ° 

在 探讨 各 学 科 期 刊 APC 金 额 与 刊 龄 、 出 版 频率 、OA 文 章 数 等 网 项 的 分 布 
上 时， 为 能 清楚 呈现 APC 与 任 一 个 变 项 两 者 的 分 布 位 置 ( 例 如 : APC RRT 
的 分 布 情形 ) ， 以 变 项 整体 期 刊 的 中 位 数 为 X 轴 、APC 人 金额 中 位 数 为 Y 轴 ， 划 
分 出 四 个 象限 ， 依 序 可 分 出 第 一 象限 APC 与 网 项 值 此 高 的 A 区 、 第 二 象限 APC 
金额 高 但 多 项 值 较 低 的 B 区 、 第 三 象限 APC 金额 与 构 项 值 此 低 的 C 区 ， 以 及 第 
四 象限 APC 金额 低 但 多 项 值 高 的 D 区 “， 以 上 解 不 同 区 碧 所 分 布 的 意义 。 四 象限 
分 布 之 区 块 定义 如 图 1 所 示 。 

图 1 四 象限 分 布 之 区 块 定义 
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名 研究 对 象 

JCR-SCIE 2017 年 版 的 47 个 医学 相关 学 科 共 收录 3,825 种 期 刊 ， 其 中 有 探 用 
OA 出 版 模式 期 刊 共计 3,420 种 ， 包 含 完全 OA 期 刊 488 种 ， 复 合式 OA 期 刊 2.932 
种 ， 因 同一 期 刊 可 能 同时 被 电 类 在 不 同 的 学 科 而 造成 重复 计算 现象 ， 故 扣除 重 
复 计算 和 后 共 2,665 种 OA 期刊。 医学 领域 各 学 科 话 组 期 刊 的 数量 医 见 表 1。 

然而 考量 到 APC 计 价 方 式 非常 多 样 且 复杂 “， 会 受到 不 同 授权 休 款 和 组合 或 文 
章 开 放 时 间 差 村 的 影响 ， 一 种 期 刊 可 能 会 依 不 同人 条 件 而 有 多 组 APC 定 价 ， 故 分 
析 时 仅 以 有 一 租 固定 APC 价 格 之 2.037 种 期 刊 作 硕 分 析 依 据 “让 以 期 刊 骨 度 探 
讨 APC 机 制 与 出 版 特征 和 期 刊 影响 力 的 关联 性 。 


F 
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Rl 医学 领域 各 学 科 期 刊 数量 
领域 = JCR ”完全 OA KAROA OA 
器 学 科 领 域 wm X 2 A ee 
S01 ALLERGY 27 5 19 24 
S02 ANESTHESIOLOGY 31 2 24 26 
S03 AUDIOLOGY & SPEECH-LANGUAGE 25 3 2 24 
PATHOLOGY 
S04" CARDIAC & CARDIOVASCULAR SYSTEMS 128 15 106 121 
S05" CLINICAL NEUROLOGY 197 15 169 184 
S06 CRITICAL CARE MEDICINE 33 2 26 28 
S07 DENTISTRY, ORAL SURGERY & MEDICINE 91 8 64 72 
S08 DERMATOLOGY 64 7 46 53 
S09 EMERGENCY MEDICINE 26 3 21 24 
S10 ENDOCRINOLOGY & METABOLISM 142 18 106 124 
S11 GASTROENTEROLOGY & HEPATOLOGY 80 7 68 75 
S12 GERIATRICS & GERONTOLOGY 53 9 41 50 
S13 HEALTH CARE SCIENCES & SERVICES 94 16 75 91 
S14 HEMATOLOGY 71 4 62 66 
S15 INFECTIOUS DISEASES 88 20 62 82 
S16 INTEGRATIVE & COMPLEMENTARY MEDICINE 27 5 17 22 
S17 MEDICAL ETHICS 16 3 i) 15 
S18 MEDICAL INFORMATICS 25 4 20 24 
S19 MEDICAL LABORATORY TECHNOLOGY 30 2 20 29) 
S20” MEDICINE, GENERAL & INTERNAL 155 43 86 129 
S21 MEDICINE, LEGAL 16 0 16 16 
S22 MEDICINE, RESEARCH & EXPERIMENTAL 133 31 83 114 
S23 NEUROIMAGING 14 1 12 13 
S24' NURSING 118 5 98 103 
S25 NUTRITION & DIETETICS 83 ili 58 69 
S26 OBSTETRICS & GYNECOLOGY 82 5 70 75 
S27 ONCOLOGY 223 38 167 205 
S28 OPHTHALMOLOGY 59 7 47 54 
S29 ORTHOPEDICS TI 12 55 67 
S30 OTORHINOLARYNGOLOGY 41 4 32 36 
S31 PATHOLOGY 79 9 56 65 
S32 PEDIATRICS 124 8 107 115 
S33 PERIPHERAL VASCULAR DISEASE 65 3 58 61 
S34 PHARMACOLOGY & PHARMACY 261 27 204 231 
S35 PRIMARY HEALTH CARE 19 5 9 14 
S36 PSYCHIATRY 142 14 112 126 
S37“ PUBLIC, ENVIRONMENTAL & 181 39 123 162 
OCCUPATIONAL HEALTH 
S38' RADIOLOGY, NUCLEAR MEDICINE & 129 16 102 118 
MEDICAL IMAGING 
S39 REHABILITATION 65 7 54 61 
S40 RESPIRATORY SYSTEM 60 10 47 51 
S41 RHEUMATOLOGY 30 5 24 29 
S42 SPORT SCIENCES 81 10 63 73 
S43 SUBSTANCE ABUSE 19 1 17 18 
S44 SURGERY 200 9 169 178 
S45 TRANSPLANTATION 25 1 23 24 
S46 TROPICAL MEDICINE 20 9 8 17 
S47 UROLOGY & NEPHROLOGY 76 11 52 63 
WR at 3,825 488 2,932 3,420 
! &E : 统计 期 刊 数 包含 重复 期 刊 之 数量 。 
“ 芒 学 科 有 期 刊 於 本 研究 资料 昔 集 过 程 中 发 生 依 期 刊 官网 资讯 更 正 OA 出 版 类 型 之 情形 。 
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是 分 析 项 目 

本 研究 欲 分 析 之 期 刊 出 版 特征 资讯 ， 如 出 版 频率 、 出 版 文章 篇 数 等 均 可 直 
接 和 经由 JCR-SCIE 儒 料 亩 取得 ， 期 刊 创刊 年 则 需 进 入 官方 移 站 查询 。 期 刊 指标 园 
择 学 术 界 最 普 志 用 来 衡量 期 刊 影响 力 之 影响 傈 数 \Impact Factor > 简称 正 ) 与 期 
刊 学 科 领 域 排名 (journal ranking ) 作为 分 析 依 据 ， 同 时 考虑 到 OA 期 刊 透 过 移 路 
免费 近 用 可 提高 其 能 见 度 与 锌 引 用 机 会 的 特性 ， 亦 将 可 以 代表 期 刊 於 特定 出 版 
年 份 即时 被 引用 的 立即 指数 (Immediacy Index ^ HAHI) MACHT ZIAA * A 
JCR-SCIE 所 提供 的 数据 角 淮 。 

在 APC 金 额 的 计算 部 分 ， 由 於 其 计价 规则 多 元 ^ OA 文章 会 受到 不 同 授 权 
人 条 球 租 合 或 开放 时 间 差 界 而 有 不 同 的 计价 方式 ， 考 量 研 究 的 可 行 性 ， 本 研究 
在 计算 期 刊 APC 时 仅 以 单一 固定 价格 计算 ， 且 因 本 研究 资料 苑 集 时 间 横 跨 2019 
年 的 上 半年 ， 故 在 标示 APC 金 额 时 一 律 以 2019 年 上 半年 的 平均 汇率 转换 以 美 
金 计价 。 


V] > [EROR REL ST HT 


中 APC 熏 期刊 出 版 特征 的 关联 性 

1. 刊 龄 

由 於 期 刊 的 出 版 需要 时 间 来 办 积 世 各 ， 故 在 此 前 提 下 ， 一 般 而 周 会 认为 期 
刊 历 轻 的 时 间 越 长 ， 也 就 是 创刊 的 时 间 越 时 ， 其 品质 与 影响 力也 就 会 越 高 ， 进 
而 越 有 可 能 吸引 作者 将 文章 投稿 至 藤 期 刊 ， 轻 年 累 月 之 后 ， 期 刊 所 让 定 的 APC 
费用 金额 也 可 能 会 越 高 。 

本 研究 以 整体 领域 扣除 未 提供 创刊 年 资讯 熏 重 复 共 计 2,036 种 期 刊 进 行 
Pearson 相关 傈 数 的 分 析 。 根 据 糙 果 显 示 ， AIFI E 2020 EZ TBR BE APC 金额 
THES TRECE .041(P = 066) > 表示 期 刊 刊 龄 与 APC 金额 於 统 计 学 上 北 无 显著 的 
相关 性 。 

以 2010 年 创刊 的 Diabetes Therapy RWI > BAHATI APC Fy 6,000 5270 ， 
为 整体 领域 APC 金额 最 高 之 期 刊 ， 刊 龄 种 公有 11 年 历史 。 反 之 ，1820 年 创刊 
的 The American Journal of the Medical Sciences 氛 有 201 年 之 刊 龄 ， 但 期 刊 APC 
为 整体 期 刊 的 中 位 数 3000 美 元 。 由 此 可 见 ， 早 期 所 创立 之 期 刊 有 可 能 收取 低 
贰 的 APC， 而 越 晚 近 创 办 之 期 刊 也 有 可 能 收取 高 额 APC 的 费用 “医学 领域 期 刊 
APC 的 收取 以 集中 在 3,000 美元 者 轧 最 多 数 。 整 体 领 域 OA 期刊 刊 涂 与 APC 人 金额 
分 布 如 图 2 所 示 。 
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图 2” 恬 学 领域 OA 期 刊 刊 龄 与 APC 人 金额 之 分 布 
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PHIR ^ SBN TiS SEH APC «583,000 5670 * APC HAL BZ 


E fet Al] 4) Bl) Bs AZ f^ B E dia SE S45 HJ TRANSPLANTATION E A W fig SE S01 的 


ALLERGY > i& PIER EAT a’ HE APC 中 位 数 相同 


' 但 期 刊 刊 


龄 之 中 位 数 公 有 落差 。 反 之 ， 期 刊 APC 收 取 人 金额 中 位 数 明 显 较 低 之 学 科 为 位 
HA D lisi: S4649 TROPICAL MEDICINE > /ag2477 5322.7 SUNS ^ HERR SR 


刊 APC 收 取 费 用 最 低 的 原因 是 受到 其 研究 主题 与 关注 茂 题 多 集中 在 位 於 热 带 


地 区 中 低 收 入 国家 的 疾病 ， 故 期 刊 投稿 之 文章 多 来 自 过 些 无 法 负 提高 额 弗 用 


RITES > RSET APC 金额 定价 门槛 较 低 ， 其 次 为 位 论 C 


区 篇 号 S16 


的 INTEGRATIVE & COMPLEMENTARY MEDICINE : Hk c EAfilig es ER gs e 
代 恬 学 之 领域 ， 根 据 美国 国家 生生 研究 院 (National Institutes of Health > KA 
NIH ) 对 於 该 领域 之 说 明 为 透 过 衣 订 的 科学 研究 确定 情 充 或 蔡 代 医学 措施 的 有 效 


性 与 安全 性 ， 丫 以 协调 的 方式 将 传统 治疗 方法 和 补充 辅助 之 医疗 方式 千 合 ， 推 


WUE ER APC 金额 较 低 的 原因 “， 为 芒 领 域 相 对 论 一 般 医 学 学 科 簿 围 较 小 ， 且 学 


科 於 1990 年 代 和 后 开始 受到 关注 ， 故 发 展 时 间 相 针 较 晚 。 


VE 4b > AER EB] 2 n e By FF AY x A DA D E fa HE S20 FY MEDICINE, 
GENERAL & INTERNAL : zZE&EHTTIB AE REFERRI. * (AACE APCS SR All 
相对 较 低 ， 而 在 所 有 学 科 领 域 中 ， 篇 号 S$S04 的 CARDIAC & CARDIOVASCULAR 


SYSTEMS ` S368 PSYCHIATRY > DIA S39 HY REHABILITATION J 


Pla Bal A PC 


SARS TE rS Hs ER PS Uk ° ERB} OA RFT BEA PC SERI 


中 位 数 之 分 布 如 图 3 所 示 。 
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图 3 ”各 学 科 OA 期 刊 刊 龄 与 APC 人 金额 中 位 数 之 分 布 
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可 能 


2. 出 版 频率 


期 刊 出 版 频率 越 高 ， 
> JS ERU TI Hoel 
刊 进 行 Pearson FARHAN ZIT 。 


就 越 高 


: 彩色 版 本 请 至 期 刊 官 秽 下 载 志 子 版 本 天 苇 ， 以 辨识 图 中 各 数值 标示 。 


文章 处 理 出 版 的 程序 就 越 频繁 ，APC 收取 的 费用 金额 


率 与 APC 人 金额 是 否 具 有 关联 性 ， 以 2.037 和 种 


根据 结果 显示 ， 期 刊 出 版 频率 与 APC 金额 相关 傈 数 雹 .239(P = .000) * 在 
001 的 显著 水 准 下 具有 相关 性 ， 表 示 APC 收取 的 费用 金额 可 能 会 受到 期 刊 出 版 


wiser Š = Um 
频率 高 低 所 影响 。 整 苯 领 域 OA 期 刊 出 版 频率 与 APC 323823 T 2T] 4 Hr e 
图 4 学 领域 OA 期 刊 出 版 频率 与 APC 人 金额 之 分 布 
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分 析 各 学 科 出 版 频率 与 APC 金额 中 位 数 的 分 布 ， 以 一 年 出 版 六 次 频率 的 

学 科 局 最 多 数 ， 而 APC 收 取 人 金额 最 高 者 分 别 是 编号 S01 的 ALLERGY 和 S45 的 

TRANSPLANTATION ， 其 中 篇 中 S45 的 TRANSPLANTATION 同时 也 是 全 体 出 版 频 

率 中 位 数 最 高 之 学 科 。 各 学 科 OA 期 刊 出 版 频率 与 APC 金 额 中 位 数 分 布 如 图 5 所 示 。 
5 各 学 科 OA 期 刊 出 版 频率 与 APC 人 金额 中 位 数 之 分 布 


3300 
3200 BE i is AE m" 
3100 4 
3000 * $ -—— - 
a 
2900 x 
2800 
4 2700 i 
z 2600 
<8 2500 * 
[o] 
5 2400 
2300 
2200 T " 
2100 cE DD 区 
2000 - - - - - 
0 1 2 3 4 5 6 7 8 9 10 11 12 
出 版 频率 (次 /年 ) 
e soi e S02 e sos © S04 9 505 oS06  @so7 © S08 PI es10 esii es12 
* S13 x S14 x S15 * S16 =S17 «S18 *S19 * S20 x S21 x S22 x S23 X S24 
4 S25 a S26 A 527 ^ S28 4 S29 AS30 — AS31 4 S32 A S33 A S34 A S35 A S36 
ms37 m s38 m s39 m S40 m S41 m s42 m 543 m S44 m s45 m S46 msa47 + 中 位 数 
ak? 彩色 版 本 请 至 期 刊 官网 下 载 电 子 版 本 阅读 ， 以 辨识 图 中 各 数值 标示 。 
== 
3.OA 文 章 数 
` 73 ae ANB ES [PEL y 
FORRET 2017 EEI OA LERLA APC 金额 高 低 是 否 具有 关联 性 ， 


15 1 2,037 种 期 刊 进 行 Pearson 相关 傈 数 的 分 析 。 

根据 和 络 果 显示 ， 期 刊 出 版 OA 文章 数 与 APC 人 金额 相关 傈 数 轧 -.150(P = 
000) > 在 .001 的 是 著 水 淮 下 呈现 负 相 关 “， 也 就 是 襄 ， 当 OA 文章 数 越 少 ，APC 
WORN SE SRHBETS * fut BL AREY IER A Se EI [8] O A 期刊 类 型 着 界 所 影 
BE > HARE ATUOA 期刊 以 出 版 1 至 50 篇 的 OA 文章 项 最 多 数 ， 又 以 集中 出 版 
10 篇 以 下 的 期 刊 较 多 ， 但 其 APC 费 用 人 秃 相 对 於 完全 OA 期 刊 所 收取 的 金额 较 
高 ， 故 造成 整 苯 期 刊 出 版 OA 文章 数 与 APC 费 用 呈现 负 相 关 “。 其 中 2017 年 出 版 
OA 文章 数 大 於 1.000 篇 者 有 八 种 期 刊 ， 但 值得 广 意 的 是 ， 简称 过 种 期 刊 所 收 
取 忆 APC 人 金额 虞 低 於 整体 期 刊 APC 的 中 位 数 43.000 美 元 * 显示 出 版 社 在 考量 
APC 定 价 上 时， 出 版 文章 数量 可 能 站 非 最 主要 的 影响 条件。2017 年 出 版 OA 文章 
数 大 於 1.000 由 高 到 低 的 期 刊 依 序 为 BMV Open 2,555 篇 (1,741.5 美 元 ) * Biomed 
Research International 1,927 篇 (1,990 美 元 )、 Oncology Letters 1,821 fe (1,190 2€ 
Jt.) ` Molecular Medicine Reports 1,801 fm (1,450 3270 ) ` International Journal of 
Environmental Research and Public Health 1,568 fm (1,800327C ) ` Experimental 
and Therapeutic Medicine 1 417 f% (1,190 JÈ ) ` Nutrients 1,325 fä ( 2,000 ŠT% ) ^ 
BMC PUBLIC HEALTH 1.022 篇 (2.390 美 元 )。 整 体 领 域 期 刊 2017 年 出 版 OA 文 
EAB APC 金额 分 布 如 图 6 所 示 。 
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图 6 ”医学 领域 期 刊 2017 年 出 版 OA 文章 数 与 APC 人 金额 之 分 布 


6000 © 


oo 
5000 |GDoqc-o— —«- omgpo 
= 


a 
«8 
PA o 
E 9 一 ~ 
4 
E o o-o E 
oo oo o 0o 
o Co o 8 3 o o o 
o o 
o 
e 
400 500 600 700 800 900 
OA 文章 数 (篇 ) 


BE : 未 显示 极端 值 (OA 文章 数 > 1,000) 的 期 刊 分 布 。 
考 丰 到 期 刊 不 同 OA 类 型 出 版 的 OA 文章 数 有 所 差 界 ， 本 研究 特别 将 复合 
式 OA 期刊 出 版 之 OA 文章 与 狠 文章 数 计 算 其 OA EREE > RETN APC E 
额 的 相关 性 ， 纺 计 349 种 完全 OA B 1,688 种 复合 式 OA 期刊， 进行 Pearson 相 关 
傈 数 的 分 析 。 
根据 结果 显示 ， 完 全 OA 期刊 出 版 之 文章 数 熏 APC 金额 的 相关 傈 数 筷 .166 
(p = 002)* 在 .01 的 显著 水 淮 下 具有 相关 性 ， 表 示 当 完全 OA 期刊 出 版 的 OA 
文章 越 多 ， 所 收取 的 APC 费 用 可 能 越 高 ; 而 在 复合 式 OA 期 刊 的 部 分 ， OA 
文章 估 比 与 APC Sz AREATEHBSR ABU —.201 Cp = .000) > Æ .001 的 显著 水 淮 下 呈现 
负 相 关 “， 显示 出 版 较 少 OA 文章 的 复合 式 OA 期 刊 普 沁 收取 较 高 额 的 APC。 不 同 
OA 类 型 期 刊 2017 年 出 版 之 OA 文章 估 比 与 APC 金额 分 布 如 图 7 所 示 。 
图 7 不 同 OA 期 刊 类 型 2017 年 出 版 OA 文章 估 比 与 APC 人 金额 之 分 布 
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在 各 学 科 出 版 OA 文章 数 与 APC 人 金额 中 位 数 分 布 部 分 ， 以 D 区 的 学 科 分 
布 最 项 分 散 ， 且 在 该 区 块 中 出 版 OA 文章 中 位 数 最 多 (120.5 篇 ) IR Roi ie 
S46 的 TROPICAL MEDICINE : & APC 收取 金额 中 位 数 同时 也 是 整体 领域 价格 
最 低 者 ， 而 APC 收 取 金 额 钦 低 的 学 科 胡 位 於 C 区 篇 号 S16 的 INTEGRATIVE & 
COMPLEMENTARY MEDICINE : 但 其 出 版 之 OA 文章 中 位 数 (11.5 篇 ) 明显 较 
TROPICAL MEDICINE 少 。 整 体 领 域 出 版 OA 文章 中 位 数 最 低 者 (五 篇 ) Jii 
S21 的 MEDICINE,LEGAL， 其 APC 收取 金额 中 位 数 饥 3,000 美 元 。 

此 外 ， 蔡 探讨 APC 收 取 金 额 中 位 数 最 高 之 学 科 ， 则 分 别 为 位 於 A 区 篇 号 
S01 的 ALLERGY 以 及 B 区 和 编号 S45 的 TRANSPLANTATION。 各 学 科 2017 年 出 


E INE S: Et. = 
版 OA 文章 数 与 APC 金额 中 位 数 之 分 布 如 图 8 所 示 。 
图 8 各 学 科 2017 年 出 版 OA 文章 数 与 APC 金 额 中 位 数 之 分 布 
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x S13 x $14 x $15 x S16 x S17 x S18 x S19 * S20 xS21 x S22 x S23 x S24 
AS25 à $26 A S27 4$S28 A S29 à 530 AS31 AS32 A S33 AS34 A S35 A S36 
S37 m s38 m s39 ms40 ms41 目 S42 国 S43 ms44 ms45 S46 m S47 + 中 位 数 


aE : 彩色 版 本 请 至 期 刊 官 移 下 载 电子 版 本 天 访 ， 以 辨识 图 中 各 数值 标示 。 

(=) HATS EEE APC 的 关联 性 

1. IF ER APC 相关 性 

FEAST RSS Bee ee Pe OR i PY ERE 
> EERIE P ^ iAP (BB ^ Ase SEK ^ APC 收取 金额 相 
对 来 襄 可 能 也 就 会 越 高 ， 故 此 ， 本 研究 将 2,037 种 期 刊 ， 扣 除 五 种 因 末 提供 IF 
资料 而 排除 计算 ， 最 后 编 计 以 2,032 种 期 刊 进 行 Pearson 相关 傈 数 的 分 析 。 

根据 结果 是 示 ， 期 刊 IF 数值 盟 APC 人 金额 相关 傈 数 殴 .168 (p = .000) = 在 
001 的 显著 水 准 下 具有 相关 性 。 因 出 现 少 数 期 刊 IF BH ERES RIT RU TEL ^ Ie BEDS 
TREAT LE 22 5E APC 金额 高 低 的 关 低 ， 本 研究 将 正 值 依 大 到 小 排序 * XE 
Bose HH IF Brea JR] 396 CIF = 9.333 ) 饲 基准 ， 且 总 方便 比较 期 刊 的 分 布 情形 ， 故 
取 整 数 将 期 刊 区 分 正 值 大 於 10 与 小 认 10 的 两 个 群 组 进行 分 析 。 
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E 


在 IF 值 大 於 10 的 租 别 中 ， 共 有 57 种 期 刊 ， 与 APC ARTHAS 025 
(p = 854) ' 结果 显示 站 不 具有 上 颗 著 相关 性 ; 而 下 值 小 於 10 的 租 别 则 共计 有 1,975 


相关 性 。 


种 期 刊 ， 与 APC 金额 的 相关 傈 数 遍 312 (p = 000) > 在 .001 的 显著 水 淮 下 具有 


厌 由 研究 络 果 可 知 ， 期 刊 下 值 越 大 ， 所 收取 的 APC 旧 用 可 能 越 高 ， 


解释 依据 。 


探讨 整体 期 刊 分 布 ，IF 值 最 低 为 0.019 由 阿根廷 的 透析 和 肾 及 移植 区 域 协 
(Asociacion Regional de Dialisis y Trasplantes Renales ) 所 出 版 ， 不 收 APC 的 
补贴 型 期 二 
B*E we (American Cancer Society ) > H. 


I| Revista de Nefrologia Dialisis y Trasplante ; YF (Aisi Ry 244.585 $488 


H% IFEA IERE CIF > 10) IE > AK APC Ee AERA HOT E 


-— 


| Wiley 所 出 版 的 CA-A Cancer 


Journal for Clinicians > APC 收取 金额 镶 3,600 美 元 。 不 收 APC 的 补贴 型 期 刊 ， 


IF 数值 具 


1 多 集中 在 10 以 下 。 此 外 ， 於 所 有 期 乔 


1 ,IF 数值 明显 较 高 (IF > 30) 


共有 三 各 


， Sy All Py HH Elsevier 所 出 版 的 Cancet Oncology (IF = 36.421 ) FI Lancet 


(IF = 53.254)，APC 收 取 人 金额 此 为 5000 美 元 ， 以 及 由 Wiley 出 版 的 C4-4 Cancer 
Journal for Clinicians (IF = 244.585) > APC 为 3.600 美 元 。 期 刊 正 与 APC 金额 分 


fn ba lial 9 


APC 人 金额 (美金 ) 


o 


图 9 ”期 刊 正 与 APC 人 金额 分 布 


O IF<10 


AIF>10 


fT Pearson 相关 傈 数 的 分 析 ， 以 探讨 各 出 版 机 构 


不 同 出 版 机 构 期 刊 中 ， 以 不 同 单 位 合作 出 版 之 期 刊 数 1.029 RRA > TEES 


广 : 未 显示 极端 值 CIF > 30) 的 期 刊 分 布 。 
由 於 订 定期 刊 APC 金额 的 主要 单位 为 出 版 机 构 “， 故 本 研究 也 依据 商业 型 > 
学 协会 、 学 术 机 构 、 不 同 单位 合作 出 版 ， 以 及 其 他 等 不 同 出 版 机 构 类 型 ， 进 


HIFI IF HE APC 金额 的 关联 性 。 


0.147 至 244.585，APC 收 取 人 金额 为 0 至 6.000 美 元 ， 相 关 性 站 / 09 T (p. 2:004.) 
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ESA TE .01 的 是 著 水 准 下 具有 相关 性 ， 但 相 较 於 其 他 出 版 机 构 类 型 ， 其 相关 性 
为 最 低 ， 推 淹 是 因为 在 该 类 别 中 ， 期 刊 的 出 版 单位 租 合 多 元 旦 复杂 ， 负 责 制 
定 APC 机 制 的 负责 单位 也 各 不 相同 ， 故 亲 致 静 出 版 单位 类 型 所 出 版 之 期 刊 整 
体 APC 分 布 的 金额 较为 分 散 。 期 刊 数 排名 第 二 轧 商 业 型 出 版 社 所 出 版 共 823 种 
期 刊 ，IF 数 值 介 於 0.170 至 53.254，APC 金 额 分 布 在 0 至 5,200 美 元 ， 相 天性 为 
.391(p = 000)， 在 .001 的 显著 水 淮 下 同样 具有 相关 性 ， 在 该 出 版 机 构 类 型 中 ， 
APC 的 金额 分 布 以 集中 在 3,000 美 元 的 期 刊 态 最 多 ， 且 若 观 看 下 大 於 10 的 期 刊 ， 
则 APC 收取 金 额 皆 骸 3,000 美 元 以 上 ， 其 分 布 大 致 时 现 IF 较 高 之 期 刊 APC 收取 
金额 相对 也 较 高 的 趋势 。 期 刊 数 排名 第 三 名 学 妃 会 出 版 共 90 种 期 刊 ，IF 数 值 介 
於 0.019 至 24.373，APC 金额 分 布 在 0 至 $,.000 美元 ， 相 关 性 为 .642 (p = .000 ) ， 
在 .001 的 显著 水 准 下 呈现 中 度 相 关 “。 最 和 后 则 是 由 学 术 机 构 所 出 版 共 65 种 期 刊 ， 
TF BEIT IA 0.288 至 7.422，APC 金额 分 布 在 0 至 3.528 美元 ， 相 关 性 为 .261(P = 
038) > 在 .05 的 显著 水 礁 下 具有 相关 性 。 不 同 出 版 机 构 类 型 OA 期 刊 IF 与 APC 
金额 的 相关 性 见 表 2。 
表 2 不 同 出 版 机 构 类 型 OA 期 刊 
IF 3t APC 金额 之 相关 性 
出 版 机 构 类 型 期 刊 数 相关 性 


商业 型 出 版 社 823 391" (000) 
学 协会 90 .642™ (000) 
学 术 机 构 65 261° (.038) 
不 同音 位 合作 出 版 1.029 091°" (.004) 
其 他 25 = 

a at 2.032 


&E AARRE TE ^ (ELIE (tH E PSS hs AFI 
较 少 ， 不 具 和 统计 意义 ， 故 不 列 人 相关 性 的 分 析 

相关 性 在 .05 水准 下 显著 ( 公 尾 )。 

”相关 性 在 01 水 淮 下 显著 (又 尾 )。 


2. 期 刊 排名 与 APC 相关 性 

若 以 期 刊 排名 角度 计算 IF 值 的 估 比 ， 则 可 探讨 各 学 科 期 刊 於 四 分 位 数 分 布 
Ba APC 金额 的 关联 性 ， 故 本 研究 也 依 期 刊 排名 分 布 三 APC 金额 进行 Pearson 相 
关 傈 数 的 分 析 。 整 体 学 科 包含 重 复 共 2,619 HHF] > HE APC 金额 的 相关 作 数 
为 -.349(P = 000) ,在 .001 的 是 著 水 准 下 呈现 负 相 关 “， 表 示 当 学 科 排名 越 好 的 
期 刊 APC 人 金额 可 能 会 越 高 。 另 就 学 科 期 刊 认 各 刑 四 分 位 数 的 分 布 分 析 盟 全 PC 金 
额 的 关联 性 ， 则 根据 和 结果 显示 期 刊 排名 分 布 在 Ql 与 Q4 区 癌 内 ， 其 相关 俊 数 在 
.01 的 水 准 下 具有 显著 性 ， 但 若 在 Q2 及 Q3 区 问 则 无 法 看 出 学 科 正 值 排名 估 比 与 
APC 金额 相关 的 是 著 人 性 。 夭 由 期 刊 四 分 位 数 排名 分 布 的 分 析 精 果 是 示 ， 更 加 印 
诈 排 名 越前 的 期 刊 所 收取 的 APC 费 用 金额 则 越 高 ， 而 排名 较 和 合 的 期 刊 APC 收 取 
费用 相 较 之 下 较 轧 便宜 。 期 刊 正 排名 分 布 彝 APC 金额 的 相关 性 详 见 表 3 。 


ias 
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表 3 期 刊 正 排名 分 布 与 APC 金额 相关 性 


排名 分 布 期 刊 数 相关 性 
整体 2,619 —349" (.000) 
Q1 (1-2596) 671 —119* (.002) 
Q2 (26-5096 ) 725 —038 (.309) 
Q3 (51-75% ) 719 -017 (.651) 


Q4 (76-100% ) 504 —75^ (000) 


ak : FIRS BT OREH PSI et ° 
相关 性 在 01 水 准 下 显著 (人 双 尾 )。 


3. 11 E APC 相关 性 

由 於 以 OA 形式 所 出 版 文章 相对 於 传统 TA 期刊 取 用 限制 较 少 ， 因 此 文章 能 
见 度 与 可 被 引用 机 会 较 高 ， 除 上 解 期 刊 下 的 影响 力 外 ， 也 特别 分 析 能 代表 期 刊 
在 特定 年 份 当年 度 出 版 文章 影响 力 的 工 数值， 以 上 解 其 与 APC 金额 的 关 傈 。 

本 研究 以 2.037 种 期 刊 进 行 Pearson 相关 傈 数 的 分 析 “， 根 据 和 结果 显示 ， 期 刊 
T UES APC ARTHAS .227(P = 000) * 在 .001 的 显著 水 准 下 具有 相关 
性 。 由 於 有 出 现 部 分 期 刊 工 值 明 显 较 高 的 极端 值 ， 故 本 研究 角 进 一 步 暗 解 I 工 值 差 
及 与 APC 人 金额 的 关联 性 ， 将 期 刊 分 为 工 值 大 伶 1 以 及 小 认 1 的 两 个 小 组 进行 分 析 。 
在 II 值 大 於 1 的 租 别 中 ， 共 计 有 446 种 期 刊 ， 和 与 APC 金 额 的 相关 保 数 局 
142(p = .003 )， 在 .01 的 显著 水 准 下 具有 相关 性 ; I 值 小 於 1 的 租 别 则 共有 1,591 
AEST > ER APC 金额 的 相关 作 数 马 .402(P = .000) * Æ .001 的 显著 水 淮 下 同样 
呈现 相关 ， 但 I 值 小 於 1 的 租 别 相关 公 数 .402 明 显 较 II 值 大 於 1 的 租 别 .142 高 ， 
表示 在 考量 医学 领域 期 刊 的 APC 时 ， 期 刊 工 值 小 於 1 的 群 和 组， 大 致 呈现 I 值 越 
大 ，APC 收取 金额 越 高 。 但 若 当 工 值 大 於 1， 则 工 熏 APC 两 者 问 的 相关 性 反而 
较 低 ， 换 言 之 ， 当 开 值 大 於 一 定 程度 上 时， 也 比较 生 找 出 期 刊 APC 的 收费 依据 。 

整体 期 刊 中 工 值 最 低 遍 0， 共计 有 10 种 期 刊 ， 显 示 这 些 期 刊 文章 於 2017 出 
WES EAR AS LH] ^ EAPC 金领 则 介 於 0 至 2,760 美 元 ; IERRA 49.172 由 
Wiley 出 版 的 CA-A Cancer Journal for Clinicians > APC 收取 金额 航 3,600 美 元 。 
除 此 之 外 ， 也 另 有 两 种 工 值 明显 较 高 (I1 > 10) 的 期 刊 ， 分 别 筷 由 Elsevier 所 
出 版 的 Lancet (II = 13.030)， 其 APC RREZ Fa 5,000 美元， 以 及 由 Taylor & 
Francis 出 版 的 American Journal of Bioethics (II = 13.667 ) > APC 收取 金额 饥 2,950 
FJ » HFD (ER APC «283-18 Ede] 10 e 


EE 弥合 讨 戎 

在 OA 出 版 模式 下 ，APC 机 制 的 产生 是 为 因应 文章 出 版 成 本 所 衍生 出 的 解 
套 闪 法 ， 而 让 作者 顾 意 支付 多 少 APC 费 用 的 程度 ， 其 一 之 因素 会 受到 期 刊 艺 
望 所 影 纪 ， 故 探讨 期 刊 出 版 OA 文章 数 、IF 值 与 APC 金 额 三 变 项 的 天 保 ， 篇 计 
2.032 各 期刊 探 计 其 分 布 。 
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10 ”期刊 H[ 值 与 APC 人 金额 之 分 布 


& od 
0 aimava A AAA — = 一 一 


oO o? 49 49 49 Q9 o& 22 X9 0% Q9 g? q9 q? A9 A? Q9 aq? o9 o? $ OF AP AN? P a? aS uo © v " 
js PG? DP? DP a? QPP a? a? a 

Eo: 未 显示 极端 值 C4-4 Cancer Journal for Clinicians (Y = 49.172 ) 的 分 布 。 

根据 研究 结果 发 现 ， 在 348 种 完全 OA 期 刊 中 出 版 文章 数 较 多 者 (大 於 1,000 
篇 )， 其 IF 值 多 集中 在 2.145 至 4.196，APC 金额 介 於 1742 至 2,390 美 元 ， 而 在 
所 有 期 刊 中 出 版 文章 数 最 多 的 BMJ Open (2,555 fs) : HIFA 2.413 > APC KHY 
SE HS 1,350 XE $2 CERTUS 1,742 2870) * 反之 ， 出 版 文章 数 最 少 轧 Emergency 
Medicine International (KF ) > IF 10.519 > APC KINSHE 1,300 5290 ; FG 
以 APC 收 取 金 额 最 多 与 最 少 的 角度 观察 ， 则 以 Diapetes Therapy (6,000 257€) 
APC 人 金额 最 高 ， 共 出 版 107 篇 ， 正 值 为 2224， 而 不 收 APC 共 计 90 种 补贴 型 其 
刊 ， 其 出 版 文章 数 多 分 布 在 400 篇 以 下 > IF AED 0.019 28 9.333 ; 最 后 以 下 值 大 
小 的 分 布 探讨 ， 其 中 正 值 最 大 的 期 刊 角 Lancet Global Health (IF = 18.705) > 4 
出 版 85 篇 文章 ，APC 收 取 金 额 5,000 美 元 ， 而 IF 值 最 小 的 期 刊 则 是 Revista de 
Nefrologia Dialisis y Trasplante (IF 2 0.019) > F&I APC 的 补贴 型 期 刊 ， 共 出 
版 18 篇 文章 。 

在 1,684 种 复合 式 OA 期 刊 中 ， 出 版 OA 文章 数 较 多 者 (大 於 1000 篇 )， 其 
IF (HSE RE 1.410 21.922 > APC HATS 1,190 Æ 1,450 美元 ， 其 中 出 版 OA XC 
章 数 最 多 的 Oncology Letters 1,821553 FIE 1.664 > APCIBOBUS SEES 1,190287C. * 
而 在 所 有 期 刊 中 出 版 OA 文章 数 最 少 (一 篇 ) 共计 有 76 种 期 刊 % IF 值 分 布 在 0.202 
至 6.481，APC 金额 介 於 0 至 3,760 美 元 ; EAPC 收取 金额 的 角度 探讨 © HIDA 
Cell Metabolism 以 及 Cancer Cel1(5,200 美 元 ) 两 种 期 刊 收取 金额 最 高 "其 由 版 
PY OA SC EES} ill By 64 8 50 f * IF (Ry 20.565 F 22.844 > MARI APC HY ALT TE 
贴 型 期 刊 ， 出 版 OA 文章 数 多 分 布 在 273 篇 以 下 ， 正 值 介 认 0.147 4.750 ; 最 和 后 
探讨 下 值 大 小 的 分 布 ， 正 值 最 大 的 期 刊 角 CA-A CancerJournal for\Clinicians CIF 
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= 244.585 )， 共 出 版 24 篇 OA 文章 ，APC 48% 3,600 5270 » IF fi" ] E Turkish 
Journal of Physical Medicine and Rehabilitation (IF = 0.147) > alt Ry ARIAL APC 的 
补贴 型 期 刊 ， 共 出 版 37 篇 OA 文章 。 另 在 复合 式 OA 中 也 可 以 发 现 期 刊 以 收取 
3.000 美 元 APC 为 多 数 ， 闻 以 正 值 为 5 以 下 且 出 版 OA 文章 100 篇 以 内 的 期 刊 分 
布 最 为 密集 。 期 刊 OA 文 章 数 、 正 值 呈 APC 金额 之 分 布 如 图 11 所 示 。 

图 11 期 刊 OA 文 章 数 、IF 值 寂 APC 人 金额 之 分 布 


完全 OA 


O 复 台式 OA 


3k REETIS CIF > 30) 的 分 布 ， 圈 圈 大 小 为 OA 文章 数 。 
EJ E 
Ti ` fam ERR 


本 研究 以 JCR 2017 PEKER 47 个 医学 领域 期 刊 为 研究 对 象 ， 扣 除 重复 共 
计 分 析 2.037 种 收取 固定 APC 金 额 之 OA 期 刊 ， 站 从 期 刊 出 版 特征 和 影响 力 的 角 
度 切 入 ， 探 讨 APC 金额 分 布 与 期 刊 的 刊 龄 、 频 率 、 文 章 规模 、 正 值 以 及 I 数值 
的 关联 性 。 

研究 结果 显示 ， 在 期 刊 出 版 特征 方面 ，APC 分 布 与 刊 龄 於 统 计 学 上 站 无 呈 
现 题 著 的 相关 性 ， 访 发 现 与 Budzinski 等 (2020 ) 探讨 出 版 商 年 龄 全 APC 两 者 关 
傈 的 结论 相似 ， 年 龄 全 APC 金额 站 无 法 呈现 直接 的 影响 关 傈 ， 仍 需 考 虑 其 他 因 
素 ， 如 出 版 商 规模 、 期 刊 影响 力 等 。 故 根据 本 研究 结果 推 葵 早期 所 创立 之 期 刊 
有 可 能 收取 低 价 的 APC， 反之， 越 晚 近 创 办 之 期 刊 也 有 可 能 收取 高 额 的 APC 慢 
用 ， 而 整体 APC 金 额 以 集中 在 3,000 美 元 期 刊 芒 最 多 ， 深 入 探 守 发 现 ， 因 本 研 
ZU PH EDU XN OA 期 刊 久 多数， 该 结果 熏 先 前 研究 显示 不 同 OA 期 刊 类 
型 ，APC 分 布 的 金额 结果 相符 ， 复 合式 OA 期 刊 APC 人 金额 集中 在 3.000 美 元 ， 
而 完全 OA 期 刊 APC 则 主要 分 布 在 1.000 至 2.000 美 元 (Bjark & Solomon, 2014: 
Solomon & Björk, 2016) ; APC 的 分 布 与 出 版 频率 则 呈现 正 相 关 “， 显示 APC 收 取 
的 费用 金额 会 受到 期 刊 出 版 频率 所 影响 ， 各 学 科 期 刊 以 出 版 频率 高 且 APC 收 取 


PRARER > PRSEER : 从 出 版 特征 与 引用 影响 指标 探 诗 开放 取 用 期 刊 文 章 处 理 费 : 以 医学 领域 为 例 187 


金额 高 的 数量 为 最 多 ; 与 OA 文章 数 嘻 负 相关 ， 探讨 其 原因 为 复合 式 OA 期刊 出 
版 OA 文章 较 少 ， 但 APC 收 取 费 用 种 相对 较 高 。 

在 期 刊 影响 力 方 面 ，APC 分 布 在 期 刊 引 用 影响 指标 与 APC 分 布 方 面 ， 无 葵 
IFZEIL IEEE .001 的 显著 水 准 下 与 APC 金额 皆 具 有 相关 性 ， 若 进一步 特 正 值 区 
分 大 於 办 小 於 10 的 两 个 群 组 ， 则 仅 在 I 下 值 小 於 10 的 组 别 中 APC 人 金额 愉 IF 值 具 
有 相关 性 ， 是 示 期 刊 影响 力 越 高 则 APC 收取 的 金额 相对 越 高 ， 人 然而 当 正 值 大 於 
一 定 程度 时 ，APC 的 收费 芳和 无 法 找 出 具 合 理解 释 的 依据 。 而 期 刊 排 名 方面 ， 仅 
分 布 在 Ql1 与 Q4 区 问 内 具有 显著 性 ，Q2 及 Q3 区 问 则 无 法 看 出 统计 学 意义 的 显 
著 相关 性 。 分 析 工 指标 ， 则 同样 区 分 大 於 与 小 於 1 的 两 个 群 租 ， 踊 然 此 显 示 具 
有 相关 性 ， 但 相 较 之 下 I 值 小 於 1 的 群 租 相关 公 数 较 高 ， 整 体 而 早 ， 研 究 结 果 
ZH IEE APC 金额 相对 也 会 越 高 的 趋势 。 

夭 由 期 刊 出 版 特征 熏 影 响 力 两 个 面向 探讨 生 APC 人 金额 的 关联 性 ， 研 究 结 
有 果 发 现 出 版 特征 与 APC 仅 呈现 低 度 相关 “， 进一步 题 示 期 刊 出 版 单位 在 订 定 APC 
上 时， 可 能 渤 是 以 期 刊 影响 力 钨 主要 的 依据 。 
再 对 作者 、 资 助 单位 或 图 书馆 等 不 同 对 象 提出 建 茂 ， 在 作者 方面 ， 提 醒 挑 
选 欲 投稿 的 目标 OA 期 刊 时 ， 可 优先 忱 择 影响 力 高 但 APC 金额 合理 的 期 刊 ; 资 
助 单 位 则 可 根据 不 同学 科 领 域 挑 渤 适当 的 期 刊 列 项 清单 ， 且 排除 影 馨 力 低 但 收 
取 高 额 APC 之 期 刊 ， 作 为 资助 的 依据 ; 图 书馆 在 推广 OA 的 同上 时， 也 应 协助 作 
者 对 APC 机 和 制 有 更 进一步 的 认 就 ， 而 在 与 出 版 商 签订 贱 读 与 出 版 声 议 (read-and- 
publish agreement， 简 称 R&P ) SHAME False ie ( publish-and-read agreement ， 
简称 P&R ) 之 转型 合约 时 ， 亦 应 努力 争取 机 构 内 作者 过 去 较 常 投稿 OA 期 刊 的 
APC 折 扣 优 惠 ， 以 利 图 书馆 协调 期 刊 订 阐 费 生 APC 的 预算 。 

MER OA 文章 数量 的 增长 ，APC 的 运作 逐渐 受到 关注 ， 然 而 本 研究 以 医学 
领域 为 研究 标的 ， 研 究 结 果 仅 偶 限 於 访 领域 情况 ， 无 从 得 知 不 同 领域 的 有 运作 ， 
倘若 未 来 可 扩大 范围 选择 不 同 领 域 期 刊 ， 疗 分 析 APC 计 价 方 式 与 金额 分 布 ， 则 
up Yes HS HE OA 机制 的 莽 界 。 此 外 ， 和 结果 发 现 ， 不 同期 刊 APC 金 祝 的 
分 布 差距 极 大 ， 其 中 又 以 复合 式 OA 期 刊 所 收取 的 APC 金 额 较 高 ， 故 建议 未 来 
可 探 用 问卷 或 深度 访谈 方式 晾 解 作者 投稿 OA 期 刊 的 动机 、 意 顾及 看 法 ， 又 或 
进一步 深入 探讨 作者 投稿 复合 式 OA 期 刊 的 原因 ， 以 及 其 顾 意 支付 最 高 之 APC 
金额 ， 最 后 也 可 调查 图 书馆 、 出 版 机 构 或 资助 单位 人 员 对 APC 机 制 的 襄 知 、 因 
应 策略 与 看 法 ， 以 玫 助 学 术 研 究 者 更 加 上 晨 解 APC 的 出 版 机 制 。 


本 文 作 者 感谢 两 位 匿名 害 奋 者 疾 租 审阅 ， 冰 提供 赛 贵 的 修改 意见 o 使 本 文 
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Abstract 


The complex APC operation mechanism of open access (OA) journal is 
generating discussion in the academic community. To understand the prices 
of APC, this study explored whether APC pricing in medicine is related to 
journal-related characteristics and journal influence-related indicators. In all, 
47 medicine-related fields in JCR-SCIE 2017 were collected, among which 3,420 
journals had published OA articles and 2,037 OA journals were analyzed, 
which removal of duplicate titles and picking out fixed APC prices. Results 
showed that APCs and journal age were not significantly correlated; journals 
established earlier may have charged lower APCs than those established 
later. Overall, the majority of OA journals charged approximately US$3,000. 
APCs and publication frequency were positively correlated, APCs increased 
with publication frequency. APCs and the number of articles published were 
negatively correlated, perhaps because hybrid OA journals published fewer 
articles but charged higher APCs. Regarding journal influence, IF and II 
values were significantly correlated with APCs. With respect to rankings, for 
journals ranked in QI and Q4, correlations between ranking and APC were 
significant. This study suggests that future may use questionnaires or conduct 
in-depth interviews to gain insight into why authors submitted articles to OA 
journals, their willingness to submit the articles and how prices they were 
willing to pay in APCs. 
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SUMMARY 


Introduction 

OA journals adopt complex operating methods, and some charge high 
publication fees, generating discussion in the academic community. Contrary to 
the publication methods adopted by toll access journals, OA journals require that 
authors or their organizations pay the publication costs. This payment is referred 
to as the "article processing charge" (APC), and it imposes a heavy burden on 
authors (Nelson & Eggett, 2017; Sotudeh & Ghasempour, 2018). Although the 
future operation of the APC mechanism of OA journals is still unknown, studies 
have revealed that APCs are the main source of profit for OA journals (Davis & 
Walters, 2011; Laakso & Bjórk, 2012). 

Regarding standards for setting APCs, Solomon and Bjórk (2012b) 
commented that APCs vary by field, journal publishing country, number of articles 
published, and journal influence, where more influential journals (i.e., those with 
higher rankings) have higher APCs. Dorta-González et al. (2017) stated that, 
currently, full OA journals generally rank low in influence, and those that rank 
comparatively higher in influence charge higher APCs. Those researchers who 
cannot afford them agonize that their results will not be published in an influential 
OA journal. Concerns have been raised about the unequal distribution of scientific 
resources caused by such discrimination (Papin-Ramcharan & Dawe, 2006; Siler 
et al., 2018; Solomon & Björk, 20122). 

This study used journal publication characteristics and influence to 
investigate whether APC pricing in medicine is related to OA journal-related 
characteristics (i.e., the year the journal was established, the frequency that 
the journal publishes papers and the number of articles published) and journal 
influence-related indicators. The study questions were as follows: 

1. In the field of medicine, what are the relationships between journal-related 

characteristics and APCs? 

2. In the field of medicine, what are the relationships between APCs and the 

journal’s impact factor (IF), Journal Ranking and immediacy index (II) 


values? 


Research Methods 
This study used bibliometrics to collect medical domain-related full. OA 
journals in JCR-SCIE 2017 and used the SCI-EXPANDED function of WoS to 
filter out hybrid journals that published OA articles but were not listed as OA 
journals in the JCR. 
In all, 3,825 journals in 47 medicine-related fields in JCR-SCIE 2017 were 
counted, among which 3,420 had published OA articles... However, journals 
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can be listed under multiple categories and be counted multiple times; after the 
removal of duplicates, 2,665 OA journals were identified. Considering that APC 
charging method is very diverse and complex, and there will be different pricing 
amounts according to different conditions. Therefore, only journals with fixed 
APC are for analysis. In total 2,037 journals were calculated. 

Concerning APCs, most OA journals have multiple pricing rules because OA 
articles have different authorization terms and publication durations. Nonetheless, 
to allow for comparisons, a fixed APC price was used when calculating the APC 
charged by a journal. Because the data were collected during the first half of 2019, 
the APCs were displayed in US$ based on the average exchange rate of this period. 


Results 


Correlations Between APCs and OA Journal-Related Characteristics 


1. Year Journal Was Established 
Pearson correlation coefficient analysis was conducted on 2,036 journals (one 


journal without publication year information was removed), and the coefficient 
between the year journal was established to 2020 is .041 (p = .066). For most 
categories, the APC was concentrated US$3,000. 


2. Publication Frequency 
Pearson correlation coefficient analysis of publication frequency and APC was 


.239 (p < .001), indicating significant correlation and that APC may be affected by 
publication frequency. The median publication frequency among the categories 
was six times a year. TRANSPLANTATION, which had both the highest median 
APCs and median publication frequency. 


3. Number of OA Articles Published 
In the Pearson correlation analysis of the number of OA articles published 


and APC was —-.150 (p < .001), indicating that the number of OA articles 
published was negatively correlated with APC. In other words, the APC increased 
as the number of OA articles decreased. This result may have been caused by the 
different OA journal types. 

Concerning the medians of number of OA articles and APCs for all journal 
categories. TROPICAL MEDICINE, had the highest median number of OA 
articles (120.5 articles) and the lowest median APC. 


Correlations Between Journal Influence-Related Indicators and APCs 


1. Correlations Between Journal IF and APCs 
Journals without IF data (five journals) were removed, and Pearson 


correlation analysis was conducted on 2,032 journals. The coefficient for journal 
IF value and APC was .168 (p « .001), which was significant. 

Because some journals had extremely high IF values, the journals were 
divided into two groups. For the > 10 group (57 journals), the correlation 
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coefficient was .025 (p = .854), which was nonsignificant. By contrast, for the « 
10 group (1,975 journals), the correlation coefficient was .312 (p « .001), which 
was significant. APC increased with IF, however, when the IF value exceeded 10, 
no reasonable explanation could be provided for the APC growth. 


2. Correlations Between Journal Ranking and APC 
All journals (ie., 2,619, which included journals counted more than once) 


the correlation coefficient was —.349 (p < 001), which was significant and 
indicated that journal ranking and APC were negatively correlated. In other 
words, higher APCs droved by better journal ranking. 

Quartile analyses indicated that for journals ranked in Q1 and Q4, the 
correlations between journal ranking and APC were significant (achieving a 
significance level of p « .01). By contrast, for Q2 and Q3 journals, no significant 
correlations were observed. Table 1 presents the correlations between journal 
ranking and APC. 

Table 1 Correlations Between Journal Ranking and APC 


Ranking distribution jou N actum éd Correlation 

Overall 2,619 —349" (.000) 
Q1 (1-25%) 671 —119" (.002) 
Q2 (26-50%) 725 —038 (309) 
Q3 (51-7596) 719 —017 (651) 
Q4 (76-100%) 504 —175" (.000) 


Note: Journals included those counted more than once; 
B numbers in parentheses are p values. 
- correlation level of p < .01 (two-tailed). 


3. Correlations Between II and APCs 
Pearson correlation analysis for journal II value and APC was 227 (p < 


001), achieving significance. Because some journals had high II extreme values, 
to properly identify the correlations between journal II values and APCs charged, 
the journals were divided into two groups. For the > 1 group (446 journals), the 
correlation coefficient was .142 (p = .003); the < 1 group (1,591 journals), the 
correlation coefficient was .402 (p « .001), both have significant. 

The II value « 1 group had a stronger II value-APC correlation. By contrast, 
when the journal II value was greater than one, the correlation between journal II 
value and APC charged (i.e., the rule of APC growth) became less visible. 


Discussion and Suggestion 
Through the two aspects of journal publication characteristics and influence 
to explore the correlation with APC price. The results of the study found that 
publication characteristics and APC only showed a low correlation, which further 
showed that journal publisher may still regard journal influence as the main factor 
when setting APC. 


196 Journal of Educational Media & Library Sciences 59 : 2 (2022) 


We suggest that future studies investigate library, publisher, and sponsor unit 
personnel’s awareness of, adaptive strategies for, and views on APC mechanisms 
to help academic researchers achieve a more in-depth understanding of the 
publishing mechanism of APC. 
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主题 相似 性 估计 与 其 在 
主题 建 模 稳定 性 测量 之 砍 用 


PES 


主题 建 模 的 稳定 性 测量 针对 相同 文本 集合 以 及 在 相同 起 始 人 条件 
下 ， 同 一 建 模 方 法 产生 的 模型 能 兔 具 有 相似 主题 的 程度 。 由 於 估 
计 主 题 之 问 相似 性 的 方法 是 主题 建 模 稳定 性 测量 的 基础 ， 疮 且 ( 主 
AMR 1 是 这 项 测量 的 关键 步 野 。 本 研究 首先 根据 经 由 主题 对 普 
之 后 获得 配对 主题 相同 的 比例 ， 比 较 不 同 相似 性 估计 方法 ， 兰 观 
察 各 种 方法 的 相似 性 分 数 分布 。 最 和 后， 也 分 析 主 题 数目 对 於 稳定 
性 测量 的 影 独 。 本 研究 使 用 的 主题 建 模 方 法 是 常用 的 潜在 狄 利克 
里 分 配 (LDA ) 主题 建 模 ， 状 从 PTT BBS Book 板 上 约 30,000 篇 发 
文 产生 分 析 的 模型 。 研 究 结 果 观 察 到 这 些 相似 性 估计 方法 配对 主 
题 相同 的 比例 很 高 ， 但 在 配对 主题 上 的 相似 性 分 数 则 有 不 同 的 分 
布 ， 同 时 也 发 现 随 著 主题 数目 增加 ， 主 题 建 模 的 稳定 性 下 降 。 


关键 词 : ERER AKA] LBD (LDA) ， 稳 定性 测量 ， 
主题 相似 性 估计 ， 主 题 对 曾 


E 


主题 建 模 (topic modeling ) 假设 要 分 析 的 文本 中 包含 一 个 或 多 个 主题 ， 


而 主题 是 由 一 组 语意 相关 的 广 语 依据 特定 的 比例 构成 ， 其 目的 便 是 利用 数学 
或 统计 方法 ， 找 出 文本 集合 中 芍 含 的 主题 结构 。 利 用 主题 建 模 方法 可 以 快速 
而 有 歼 率 地 其 助 分 析 文 本 内 容 ， 普 且 具 有 可 以 处 理 大 量 文 本 资料 的 可 扩展 性 
(scalability) * 已 经 意 来 意 广 泛 应 用 於 各 种 文本 分 析 的 问题 上 ， 例 如 确认 与 检索 
某 些 特定 主题 的 文件 ; 探讨 大 从 传播 媒体 (Jacobi et al., 2016) ^ BORi (Quinn 
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et al., 2010) 或 社 群 媒体 (Elgesem et al., 2015) 上 讨论 的 公共 议题 ; 追 路 新 闻 事 
件 的 发 展 (Kim & Oh, 2011) ; 分 析 鸯 路 评论 上 使 用 者 对 於 产 品 各 项 裔 计 熏 功能 
面向 的 评价 与 口碑 (Tirunillai & Tellis, 2014) ; 发 现 电影 等 娱乐 产品 的 心理 主题 
特征 (psychological thematic features ) 与 消费 之 问 的 关 傈 (Toubia et al., 2019) ; 
甚至 应 用 在 软体 工程 (software engineering; Agrawal et al., 2018; Panichella et 
al., 2013; Sun et al., 2016 )、 人 研究 评 炙 (research evaluation; Nichols, 2014) 上 。 
以 技术 来 说 ， 机 率 潜在 语意 分 析 (probabilistic latent semantic analysis > ff% 
pLSA ; Hofmann, 1999 )、 潜 在 狄 利克 里 分 配 (atent Dirichlet allocation， 简 称 
LDA ; Blei et al., 2003 ) 都 是 常见 的 主题 建 模 技 术 “， 近 年 来 也 有 将 非 负 第 阵 分 解 
(nonnegative matrix factorization > AAS NMF ) 技术 应 用 於 主题 建 模 (Wang et al., 
2012) * 

DLA BARE * LDA cet he SC Al] ^ TT AL BY IE H^ EERIE EE 
模 技 术 (Lancichinetti et al., 2015 )。LDA 产生 的 主题 模型 是 一 种 机 率 式 生 成 模 
型 (a generative probabilistic model) )。 假 定 所 有 的 文件 所 成 的 集合 中 共有 天 个 
主题 ， 将 每 一 笔 文 件 视 为 是 由 过 开 个 主题 依据 特定 的 机 率 分 布 混合 组 成 。 
一 个 主题 则 由 所 有 词语 出 现在 主题 上 的 机 素来 表示 (Blei et al., 2003) * 与 主题 
相关 的 关键 词语 具有 较 大 的 机 率 ; 反之 ， 不 相关 的 词语 的 机 率 则 相当 小 。 所 
以 主题 模型 包括 两 租 机 率 分 布 : 所 有 文件 上 的 主题 机 率 分 布 与 所 有 主题 上 的 
说 藩 机率 分 布 ， 前 者 形成 的 矩阵 在 主题 建 模 技术 中 称 轧 20， 而 和 后 者 的 和 矩 障 则 称 
和 为。 主题 建 模 时 “， 和 给 定 应 用 的 文件 集合 和 主题 的 数目 K 以 及 产生 Dirichlet 分 
fü Pris] 659 Z5 a RT ,LDA 演 算法 根据 < 和 有 随机 产生 起 始 的 0 和 V。 然后 
再 根据 当前 的 0 和 少 , 将 输入 文件 的 词语 分 配 到 每 个 主题 上 ， 重 新 推 革 出 更 精 
TERY OTIO ° KIE Fak PGE ^ EEF ZEA BIR AMY n RETE * Ate 
FA) DA FB ta PR EE 23 T BO RE GC ^. PROC APN IB A ER E 
rel HEN Tes ^ d FSAI it EF ERS A fist SANA Ee EE 
者 除了 探讨 与 发 展 主题 建 模 的 应 用 领域 之 外 ， 很 多 研究 针对 LDA 的 主题 模型 
架构 ， 提 出 各 种 不 同 的 衍生 模型 ， 如 关联 主题 模型 (correlated topic models ， 
简称 CTM ; Blei & Lafferty, 2007 )、 动 态 主 题 模型 (dynamic topic models， 简 
称 DTM ; Blei & Lafferty, 2006 )、 附 层 式 狄 利克 雷 历程 混合 模型 (hierarchical 
Dirichlet processes， 简 称 HDP ; Teh et al., 2006 ) 等 等 。 另 一 方面 * SEEDA 
的 模型 品质 著 手 ， 和 沉 试 找 出 更 有 效 、 更 稳定 描述 文本 集合 的 模型 。 和 过 些 品质 指 
票 最 态 研 究 者 所 认识 的 是 用 来 表示 主题 模型 的 文本 预测 能 力 的 对 数 概 似 值 (10g- 
likelihood ) FI#Z#EEE (perplexity; Griffiths & Steyvers, 2004 )， 以 及 表示 主题 模型 
之 可 解 各 性 (interpretability ) 的 主题 声调 性 (coherence; Röder et al.)2015 ) ° Fae 
性 (stability ) 也 是 近来 主题 建 模 研 究 的 议题 之 一 (可 参见 Agrawal et al., 2018, 3.4. 
LDA, Instability and Tuning; Maier et al., 2018, Appendix ) ° 
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沽 定性 是 同一 的 演算 法 在 相同 的 输入 资料 下 ， 每 一 次 执行 能 锡 得 到 相同 和 结 
果 的 测量 指标 。 稳 定性 高 的 主题 建 模 方法 便 是 针对 相同 文件 集合 ， 在 相同 的 主 
题 数目 CK) 和 先 验 参数 (a 和 6 ) 等 条 件 下 ， 每 次 产生 的 各 个 模型 上 能 移 有 相似 
的 主题 。 换 句 话 说， 产生 的 每 一 对 模型 之 间 有 很 高 的 一 致 性 (agreement )。 但 是 
一 般 LDA 的 建 模 结果 是 不 确定 的 (nondeterministic ) * 在 相同 的 人 条件 下 ， 某 要 个 
模型 上 出 现 的 主题 可 能 节省 有 出 现在 另外 状 个 模型 中 。 如 此 一 来 ， 在 应 用 主题 
建 模 技术 分 析 文 本 集合 的 主题 结构 时 ， 将 无 法 确定 此 次 建 模 所 得 到 的 主题 是 稳 
定 或 偶然 出 现 的 (Koltcov et al., 2016 )。 仪 尖 菏 一 次 建 模 所 得 到 的 主题 模型 做 篇 
文本 内 容 分 析 的 结果 ， 可 能 会 得 到 错误 铬 论 (Agrawal et al., 2018 ) * 造成 分 析 猪 
SRA (a FE (reliability ) 有 竺 商 椎 ， 影 响 主 题 模 型 的 有 用 性 (Maier et al., 2018) ° 
本 研究 的 目的 便 是 针对 LDA 主题 建 模 稳定 性 的 测量 进行 分 析 。 

主题 建 模 稳定 性 的 测量 方法 有 很 多 ， 本 研究 依据 De Waal B Barnard 
(2008) ` Greene 等 (2014) Belford 等 (2018 ) 使 用 的 主题 建 模 稳定 性 测量 架构 
进行 研究 。 此 测量 架构 的 过 程 褒 明 如 下 : 首先 在 相同 的 输入 资料 (文件 集合 、 
主题 数目 与 先 验 参数 ) 下 ， 重 复 进 行 多 次 主题 建 模 ， 产 生 多 个 模型 。 然 后 ， 计 
算 任 何 两 个 模型 问 的 一 致 性 分 数 (agreement score) > ALES ZEARI AE 
的 一 致 人性， 也 就 是 主题 模型 上 的 主题 奖 乎 都 可 以 在 另 一 个 模型 上 找到 相似 的 主 
题 旦 ， 表 示 主 题 建 模 的 稳定 性 较 高 。 因 此 “， 将 所 有 一 致 性 分 数 的 平均 值 做 为 主 
题 建 模 称 定性 的 测量 值 。 例 如 在 主题 建 模 时 共产 生 允 个 模型 ， 假 设 第 ;和 7 个 模 
型 问 的 一 致 性 分 数 筷 agreementij。 稳定 性 的 测量 值 可 表示 为 式 (D) 的 形式 ， 

det ep d" agreementij 


stability = ^ um- (1) 


aT S5 p IS S 8L FT — SC PE 2 B HIA $c Hr s P I8 YY ECS > PR 
后 以 配对 的 相似 性 分 数 平均 值 做 为 一 致 性 分 数 。 找 出 模型 乙 问 彼此 最 佳 主 题 
配对 和 组合 的 步 鱼 称 为 主题 对 诸 (topic alignment; Belford et al., 2018; De Waal & 
Barnard, 2008; Greene et al., 2014.) * XQ) 以 数学 形式 表 过 上 述 想 法 ， 


agreement;; & se at (2) 
在 式 (2) 中 ，t 表 示 第 i 个 主题 模型 的 第 k 个 主题 ;tixow 则 是 ti 径 光 主题 对 讲 合 在 
第 个 主题 模型 上 配对 到 的 主题 ，sim(tiw, tr) 表示 关 个 配对 的 相似 性 分 数 。 如 
果 释 过 主 题 对 弯 乒 ， 两 个 模型 在 最 佳 瑟 对 租 合 内 的 主题 之 问 大 多 具有 较 高 的 相 
似 性 分 数 ， 过 两 个 模型 之 问 便 有 较 高 的 一 致 性 。 
在 上 述 主 题 建 模 稳定 性 的 测量 架构 中 ， 由 於 估计 两 个 主题 和 之 团 的 相 
WIEST Msi (ti, th) ETA AY EERE ， 因 此 本 研究 将 从 主题 相似 性 估计 方法 的 分 
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析 和 与 比较 开始。 可 用 来 估计 主题 之 问 相 似 性 分 数 的 方法 很 多 ， 例 如 ，Jaccard 
分 数 ( 简 称 JAC)、KL 散 度 (Kullback-Leibler divergence， 简 称 KLD )、JS 散 
度 (Jensen-Shannon divergence， 简 称 JSD ) PRRI Æ (cosine measure > i 
COS) 等 等 ， 不 同 的 估计 方法 使 用 不 同 的 主题 特征 资讯 ， 例 如 部 分 的 关键 词 衣 
集合 或 词语 的 出 更 机 率 ， 佑 计 的 方式 也 不 相同 。 上 述 稳定 性 测量 架构 是 建立 在 
主题 对 弈 多 得 的 主题 配 针 组 合 上 “， 如 果 配 对 相同 的 情形 很 高 ， 则 两 种 不 同 相似 
性 估计 方法 在 稳定 性 测量 的 应 用 上 将 有 相近 的 效果 。 因 此 ， 本 研究 则 认为 比较 
不 同 相 似 性 估计 方法 时 ， 应 观察 不 同 相 似 性 估计 方法 在 最 佳 主题 配对 租 合 上 配 
对 相同 的 比例 ， 上 解 不 同方 法 应 用 於 计算 稳定 性 上 是 否 有 差 界 。 此 外 ， 配 对 租 
合 中 可 能 包含 相似 性 分 数 较 高 的 配对 ， 也 可 能 包含 分 数 较 低 的 配对 “， 本 研究 将 
观察 与 比较 各 种 相似 性 估计 方法 在 配对 主题 上 的 相似 性 分 数 分 布 。 

本 研究 站 将 讨论 主题 数目 对 於 稳定 性 的 影响 。 主 题 数目 (KE ) 是 主题 建 模 相 
当 重 要 的 参数 ， 目 前 有 关 主 题 建 模 稳定 性 的 研究 大 多 只 有 测量 一 种 主题 数目 下 
的 稳定 性 ， 只 有 Greene 等 (2014)、Ballester Ed Penner (2022 ) 曾 人 针对 不 同 主题 数 
目 如 何 影 响 稳 定性 进行 探讨 。 但 Ballester 与 Penner (2022 ) 所 使 用 的 稳定 性 测量 
方法 主要 针对 应 用 於 文 件 议 集 (document clustering) 的 主题 建 模 方 法 上 “， 所 使 
用 的 概念 不 同 於 本 研究 使 用 的 主题 建 模 稳定 性 测量 染 构 。Greene 等 (2014 ) $87 
较 少 的 主题 数目 ， 将 使 得 每 个 主题 涵盖 的 概念 较 大 ， 出 更 机 率 分 散在 多 个 词语 
上 ， 可 能 出 更 的 关键 词 语种 类 较 多 ; 反之 ， 主 题 数目 增加 时 ， 每 个 主题 的 范围 
缩小 ， 主 题 上 关键 词语 彼此 的 相关 性 增加 ， 但 主题 数目 过 度 增加 时 “， 将 使 得 主 
题 的 范 园 过 度 狭 附 ， 使 得 出 更 机 率 集 中 在 少数 词语 上 (Greene et al., 2014) ° FA 
於 主题 建 模 的 过 程 是 反 履 根据 模型 参数 随机 地 重新 分 配 进行 调整 ， 因 此 可 以 推 
测 主 题 数目 将 会 对 於 主题 建 模 的 稳定 性 造成 影响 。 但 Greene 等 (2014) 的 研究 
使 用 的 文本 资料 都 已 经 有 明确 的 主题 ， 例 如 新 闻 萎 料 库 上 的 版 面 资讯 ， 而 且 主 
题 数目 都 相当 小 。 因 此 本 研究 将 以 主题 不 明确 上 且 数 量 较 多 的 文本 资料 讨论 过 个 
问题 。 

和 绽 上 所 述 ， 本 研究 将 进行 以 下 的 纲 察 与 分 析 : 

人 不 同 相 似 性 估计 方法 在 最 佳 主题 配对 组合 上 配对 相同 的 比例 ， 

白 各 种 相似 性 估计 方法 在 配对 主题 上 的 相似 性 分 数 分 布 ， 

白 主 题 数目 对 於 主题 建 模 称 定性 的 影响 。 

本 论文 的 章节 和 络 构 如 下 : 本 节 询 明 研 究 的 动机 和 与 目的 ， 简 要 讨 明 主题 建 模 
稳定 性 的 测量 方法 与 本 研究 将 探讨 的 问题 ; 接 下 来 ， 将 对 有 关 主 题 建 模 稳定 性 
测量 的 研究 以 及 其 中 最 重要 的 主题 相似 性 估计 方法 进行 文献 回顾 ; Fe BRE 
明 研 究 中 使 用 的 文本 人 资料、 主题 建 模 、 主 题 相似 性 佑 计 方 法 与 稳定 性 的 测量 方 
法 ; 最 后 的 两 节 分 别 是 研究 和 苦果 与 结论 。 
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二 、 相 关 研 究 


本 季 首 先 衣 明 过 去 有 关 主 题 建 模 稳定 性 以 及 测量 方法 的 研究 ， 然 合计 论 对 
稳定 性 测量 相当 重要 的 主题 相似 性 估计 方法 。 

中 主题 建 模 的 稳定 性 以 及 测量 方法 

利用 LDA 主题 建 模 程 式 进 行文 本 内 容 分 析 的 研究 大 多 假定 建立 的 主题 是 真 
实 上 且 一 致 的 ， 和 结果 具有 相当 的 可 重复 产生 性 (reproducibility )*。 因此， 过 些 研究 
余 了 调整 模型 的 主题 数目 以 外 ， 对 於 产 生 主 题 在 文件 上 的 机 率 分 布 和 词语 在 主 
题 上 的 机 率 分 布 的 先 脸 参数 a 和 PB， 往往 控 用 程式 预 设 的 参数 值 ， 而 且 通 常 只 
探 用 一 次 建 模 所 得 到 的 结果 ， 很 少 重 复 执 行 多 次 建 模 (Belford et al., 2018; Maier 
et al., 2018 )。 然 而 实际 上 “， 即 便 使 用 相同 参数 以 及 相同 文本 ， 每 次 建 模 产生 的 
主题 模型 往往 会 有 一 些 差别 。 过 种 不 稳定 的 情形 亲 致 应 用 LDA 主题 建 模 在 自 
动 内 容 分 析 的 有 用 性 在 近年 越 来 越 受 到 质疑 (Belford et al., 2018; Chuang et al., 
2015 )。 

根据 以 上 的 膏 明 ， 测量 主题 建 模 的 稳定 性 需要 和 经 由 计算 多 次 建立 的 主题 
模型 乙 间 的 一 致 性 分 数 ， 如 果 多 个 结果 模型 彼此 一 致 的 话 ， 主 题 建 模 的 结果 
便 可 证 为 是 比较 稳定 的 。 比 较 过 些 模 型 的 一 致 性 有 两 种 做 法 : 一 种 是 Maier 等 
(2018) 与 Belford 等 (2018 ) 所 建 蔗 的 做 法 : 在 相同 的 参数 下 “， 针 相同 文本 执行 
MM 砍 主题 建 模 ， 效 得 MM 个 模型 ， 然 后 计算 全 部 M(M-1)/2 对 模型 之 阅 的 一 致 性 分 
数 ， 再 进行 平均 或 以 其 中 位 数 做 钨 主题 建 模 称 定性 的 测量 值 ; 另 一 种 方法 则 是 
H Greene $ (2014) 提出 ， 利 用 全 部 文件 训 纯 、 较 完整 的 模型 做 筷 参 考 模型 ， 
以 参考 模型 多 主 ， 计 算 它 与 其 他 (M-1 ) 个 只 取 部 分 文件 训 和 红 、 较 弱 模 型 乙 间 的 
一 致 性 分 数 ， 再 进行 平均 或 取 中 位 数 。 

既然 主题 建 模 的 初始 化 与 建 模 过 程 都 是 随机 的 ， 每 次 建 模 所 得 到 的 主题 次 
序 与 内 容 不 大 可 能 完全 相同 。 在 模型 4 上 篇 号 为 k 的 主题 可 能 与 模型 B 上 同样 
篇 号 K 的 主题 相差 很 大 ， 但 与 篇 号 驴 的 另 一 个 主题 较 相 似 。 到 种 情形 将 造成 计 
算 两 个 模型 之 间 一 致 性 的 问题 。 因 此 ，De Waal 与 Barnard(2008 )、Greene 等 
(2014) ` Belford 等 (2018 ) 建议 在 计算 两 个 主题 模型 的 一 致 性 分 数 时 ， 可 先 将 
两 个 模型 之 癌 主 题 的 相似 性 分 数 输入 多 牙 利 演算 法 (Hungarian algorithm; Kuhn, 
1955 ) 进行 主题 圣 讲 ， 一 对 一 匹配 两 个 模型 上 相似 的 主题 “获得 两 个 模型 的 最 
佳 主 题 配 对 组 合 。 然 后 再 以 最 佳 配对 和 组合 内 的 主题 配对 估计 过 两 个 模型 的 一 致 
性 分 数 。 以 下 简要 襄 明 上 述 研究 应 用 匈牙利 演算 法 进行 主题 对 讨 闻 计算 一 致 性 
分 数 的 方式 ， 附 名 中 将 提供 匈牙利 演算 法 的 程序 与 一 个 简单 的 主题 对 讨 秀 例 。 

De Waal Ei Barnard (2008 ) 提出 根据 两 个 模型 在 文件 上 主题 出 现 机 率 分 
(0) 计算 主题 模型 一 致 性 的 方法 。 他 们 建议 先 估计 两 个 模型 之 间 主 题 的 相似 
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性 ， 然 后 将 两 个 模型 共有 K? 对 的 主题 相似 性 分 数 输入 匈牙利 演算 法 进行 主题 对 
诸 ， 找 出 两 个 模型 的 最 佳 配 对 组 合 。 如 果 主 题 建 模 的 方法 稳定 ， 同 一 笔 文 件 在 
不 同 次 的 建 模 结果 中 彼此 应 具有 相似 的 主题 。 因 此 ， 他 们 将 主题 视 为 文件 的 特 
征 ， 两 个 模型 在 同一 文件 上 的 主题 出 现 机 率 分 布 则 是 文件 的 两 组 特征 值 。 当 两 
个 模型 进行 主题 圣 讲 之 后， 可 以 利用 所 有 文件 上 的 主题 机 率 分 布 ， 比 较 两 组 特 
征 值 的 相关 性 ， 以 相关 性 的 高 低 表 示 模 型 之 间 一 致 性 的 大 小 。 

Belford 4$ (2018) ) 和 Greene 等 (2014) 都 以 每 一 个 主题 上 前 7 个 出 现 机 率 
较 高 的 词语 集合 代表 各 个 主题 。 在 估计 两 个 模型 之 问 所 有 主题 的 相似 性 分 数 之 
合 ， 将 所 有 相似 性 分 数 输入 匈牙利 演算 法 ， 找 出 两 个 模型 最 佳 的 主题 配对 租 
合 。 两 个 研究 都 将 模型 之 问 的 一 致 性 定义 局 最 佳 配 对 租 合 内 每 一 对 配对 JAC 之 
平均 值 。 

Yang 等 (2016 ) 首先 利用 匈牙利 演算 法 进行 主题 对 讲 ， 然 合 将 产生 的 主题 
配对 和 组合 应 用 在 主题 模型 之 闫 一 致 性 的 测量 。 他 们 提出 三 种 主题 模型 一 致 性 分 
数 的 测量 方法 : 第 一 种 方法 先 将 要 进行 一 致 性 测量 的 两 个 主题 模型 分 别 应 用 於 
文件 主题 指定 (document topic assignment) * 也 就 是 文件 中 出 现 机 率 最 高 的 主 
题 。 如 果 同 一 文件 在 两 个 模型 中 指定 的 主题 分 别 是 主题 对 讨 产 生 的 配对 主题 ， 
文件 的 主题 指定 便 是 一 致 的 ， 而 文件 集合 内 主题 指定 一 致 的 文件 比例 意 高 ， 过 
下 个 模型 之 间 的 一 致 性 分 数 便 意 高 。 第 二 种 方法 与 Greene 等 (2014)、Belford 等 
(2018 ) 同样 使 用 每 一 个 主题 上 前 7 个 出 现 机 率 较 高 的 词语 集合 代表 各 个 主题 ， 
H Yang (2016) 不 使 用 配对 主题 JAC 之 平均 值 ， 而 是 将 两 个 模型 的 一 致 性 定 
义 轧 它们 之 间 所 有 配对 主题 上 蛮 萎 相同 的 比例 ， 当 配对 主题 的 词 藻 相同 比例 意 
高 ， 两 个 模型 便 意 一 致 。 第 三 种 方法 则 将 主题 模型 应 用 在 文件 上 每 一 个 词 藻 的 
主题 指定 (token topic assignment ) > 也 就 是 诀 定 文件 上 每 一 个 词 萎 为 主题 模型 上 
的 哪 一 个 主题 ， 将 文件 集合 内 主题 指定 鸭 同 一 对 配对 主题 的 启东 之 比例 和 视角 主 
题 模型 之 问 的 一 致 性 。 

使 用 匈牙利 演算 法 对 两 个 模型 中 的 主题 进行 主题 对 弈 ， 其 运算 复杂 度 为 
O (2 ) > 所 以 也 有 其 他 的 研究 探 用 较 简 单 的 方法 来 计算 主题 模型 的 一 致 性 。 
Maier 等 (2018 ) 将 两 个 主题 模型 的 一 致 性 定义 为 完成 配对 的 主题 数量 估 模 型 主 
题 数目 的 比例 。 薄 定义 某 一 个 主题 吕 熏 另 一 个 主题 六 完成 配对 的 人 条件 筷 避 是 其 所 
属 模 型 中 与 色相 似 性 分 数 最 高 的 主题 ， 而 且 其 分 数 超过 0.7 。 

其 他 研究 则 提出 不 需 先 对 模型 进行 主题 对 讨 的 稳定 性 测量 方法 。Belford 等 
(2018) 关於 主题 建 模 稳 定性 的 研究 中 ， 除 了 前 述 利用 匈牙利 演算 法 对 讨 模 型 主 
题 计算 模型 一 致 性 分 数 的 方法 之 外 ， 另 外 提出 其 他 丙种 测量 稳定 性 的 方法 : 第 
一 种 方法 对 主题 模型 的 每 个 主题 ， 选 出 7 个 出 现 机 率 最 高 的 关键 说 语 ， 然 后 以 
所 有 主题 的 关键 说 应 集合 做 航模 型 的 代表 特征 。 主 题 模 型 对 另 一 个 模型 的 差 黑 
比率 则 定 闵 局 两 者 关键 词语 集合 的 集合 差 (set difference ) 大 小 估 所 有 可 能 主题 
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PARERA H (KXT) 的 比率 。 如 果 两 个 关键 说 范 集 合 完全 相同 ， 过 对 模型 的 差 轴 
ERRO ; 如 果 完 全 不 同 ， 差 默 比率 为 1。 计 算出 每 一 对 模型 的 差 轴 比 率 和 后 ,有 
以 差 民 比率 的 平均 值 做 为 主题 建 模 称 定性 的 测量 值 。 如 果 所 有 模型 的 差 民 比率 
平均 值 接近 0， 表 示 建 模 的 结果 相当 稳定 。 

Belford (2018 ) 的 另 一 种 方法 利用 和 钨 常用 於 测量 议 集 一 致 性 (clustering 
agreement ) 的 正规 化 交互 资讯 Cnormalized mutual information; Strehl & Ghosh, 
2002 ) 估算 两 次 建 模 和 结果 之 间 的 一 致 性。 他 们 简化 主题 建 模 方 法 所 具有 的 机 
288 (probabilistic clustering ) 特性 ， 只 使 用 每 个 文件 的 主要 主题 (dominant 
topic )， 也 就 是 该 文件 上 出 现 机 率 最 大 的 主题 ， 舰 妨 一 种 将 文件 进行 议 集 分 析 
(cluster analysis ) 所 得 到 的 划分 (partition )!。 在 第 一 次 建 模 络 果 中 ， 某 一 组 具有 
相同 主要 主题 的 文件 ， 如 果 在 第 二 次 结果 也 具有 相同 的 主要 主题 ， 也 就 是 两 次 
议 集 的 划分 结果 相同 。 如 果 大 多 数 相关 的 文件 在 两 次 建 模 都 具有 相同 主要 主题 
的 情形 ， 此 时 便 可 多 得 较 高 的 正规 化 交互 资讯 ， 而 可 证 筷 两 个 模型 相当 一 致 。 
因此 ， 将 主题 建 模 的 稳定 性 定义 为 每 一 对 模型 之 问 正 规 化 交互 资讯 的 平均 值 。 

Agrawal 等 (2018 ) 和 用 主题 中 出 现 机 率 最 高 的 前 7 个 说 萎 代 表 主 题 ， 利 用 
主题 上 的 宰 语 在 多 次 建 模 结果 中 重复 出 现 的 次 数 测 量 稳定 性 。 当 在 以 次 的 建 模 
结果 中 ， 对 於 某 一 个 主题 ， 假 定 能 发 现 与 其 有 ;个 词 范 相同 的 主题 共有 7 次 时 ， 
过 个 主题 在 :个 词 萎 时 的 重复 比例 被 定义 为 mUM。Agrawal 等 (2018 ) 将 整个 模型 
在 :个 词语 时 的 稳定 性 分 数 定义 筷 每 个 主题 重复 比例 的 中 位 数 。 在 比较 各 种 主题 
建 模 方 法 的 称 定性 时 ， 将 每 种 方法 各 产生 M 次 的 训练 和 结果， 计算 + 从 1 到 7 个 
词语 时 的 稳定 性 分 数 。 大 抵 来 说 ， 随 著 1 增 加 ， 稳 定性 分 数 会 降低 ， 但 比较 稳 
定 的 主题 建 模 万 法 的 分 数 下 降 程度 较 小 ， 也 就 是 主题 中 包含 较 多 重复 出 更 的 


S52 
RHAG ? 


d 


Ballester Ed Penner ( 2022 ) 探讨 与 比较 LDA、NME 和 Doc2Vec 三 种 主题 建 模 
方法 * 的 统计 强健 性 (statistical robustness ) ` #577 ( descriptive power ) 和 反映 真 
H (reflect reality) 等 三 种 品质 ， 他 们 北 训 为 主题 建 模 方 法 提供 了 比 其 他 文件 六 
集 方 法 更 好 的 文件 相似 性 计算 ， 因 此 在 比较 主题 建 模 方法 的 品质 上 时， 应 识 闭 重 
其 在 文件 相似 性 的 计算 上 。Ballester E Penner (2022 ) 襄 明 统计 强健 性 的 意 涵 为 
:在 相同 资料 上 “， 以 相同 参数 执行 相同 建 模 应 亦 产 生 相 同 或 至 少 极为 相似 的 知 
RR? 事实 上 便 是 本 研究 所 探讨 主题 建 模 时 的 稳定 性 。 和 纤 上 所 述 ， 在 测量 某 种 
主题 建 模 方 法 的 统计 强健 性 时 ， 先 产生 多 个 模型 ， 然 后 计算 每 一 对 文件 相似 性 
分 数 在 所 有 模型 上 的 标准 关 (standard deviation )， 较 大 的 标 淮 差 表 示 谈 对 文件 在 


1 Belford 等 (2018) 所 指 之 文件 的 主要 主题 也 就 是 Yang 等 〈2016 ) 的 文件 主题 指定 烙 果 ;。 

“Doc2Vec 利 用 类 神 轻 欧 路 (neural network) 的 方式 推导 代表 每 个 文件 的 特征 向 量 交 称 为 文件 
的 能 入 《document embedding) 。 语 意 相似 的 文件 ， 其 修 入 之 问 的 儿 弦 相似 性 较 高 。 但 因 般 
无 法 解读 人 各 人 上 的 每 一 个 元 素 代 表 的 意义 ， 厂 格 来 说 ，Doc2Vec 亲 不 能 算是 主题 建 模 廊 法 。 
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应 用 不 同 模 型 所 得 到 的 相似 性 分 数 有 较 大 的 差 界 。 如 果 将 所 有 成 对 文件 的 相似 
性 分 数 标准 差 进行 平均 和 后 ， 凑 生 较 大 的 数值 ， 便 表示 过 种 主题 建 模 方法 站 不 是 
相当 强健 ， 也 就 是 不 稳定 。Ballester 与 Penner(2022 ) 建议 文件 相似 性 分 数 的 计 
算 ,在 LDA 和 NMF 上 可 以 利用 文件 的 主题 机 率 分 布 进行 COS， Doc2Vec 则 可 
将 COS 应 用 在 代表 文件 的 和 庶 入 (embedding ) E ° Ballester # Penner ( 2022 ) 的 研 
完 指出 ， 在 三 种 主题 建 模 万 法 中 ，Doc2Vec 在 各 种 主题 数 上 日 下 ， 相 较 於 其 他 两 
种 方法 ， 在 强健 性 上 都 有 不 错 的 结果 > LDA 则 是 在 探 用 较 多 主题 进行 建 模 时 
较为 强健 ， 但 在 较 少 主题 时 普 不 理想 ; NME 则 在 主题 数目 增加 时 “， 有 不 佳 的 
强健 性 。 


饭 主 题 忆 问 相 似 性 估计 方法 
主题 模型 上 包含 的 两 种 资讯 ， 文 件 上 的 主题 出 现 机 率 分 布 O 和 词语 在 主 

题 上 的 机 率 分 布 6， 都 可 以 运用 来 估计 主题 之 阅 的 相似 性 分 数 。 在 使 用 9 进行 

估计 上 时， 主题 可 杭 为 文件 一 种 特征 表现 。 例 如 De Waal Ei Barnard (2008 ) Æ 

讨 两 个 主题 的 相似 性 分 数 可 定义 为 两 个 主题 在 所 有 文件 上 出 现 机 率 的 乘积 入 

M * DAP Mae t, Ba, Re Pill ^ BOE EME D Ed, ~ dp 上 的 出 现 机 率 分 别 

是 pie~ppa 和 Po~pp * De Waal Él Barnard (2008 ) 将 它们 的 相似 性 分 数 定 义 为 

22;piapp。 当 两 个 主题 在 各 文件 上 的 出 现 机 率 相 似 时 ， 所 估算 得 到 的 相似 性 

分 数 较 高 。 

另 一 方面 ， 在 运用 Y 估计 主题 乙 问 的 相似 性 时 ， 可 依据 主题 的 代表 特征 

分 为 三 类 。 下 面 以 表 1 上 的 简单 例子 询 明 上 述 三 类 代表 特征 以 及 使 用 过 些 特 

币 的 相似 性 估计 方法 。 在 过 个 例子 中 ， 词 荣 中 词语 的 狠 数 共有 七 个 ， 分 别 是 

wi~w7，t4、 刀 与 t. 是 三 个 要 进行 相似 性 估计 的 主题 ， 表 格 上 的 数值 则 代表 对 府 

的 词语 在 主题 上 的 机 率 。 

表 1 以 词语 在 主题 上 机 率 ($) 估计 主题 相似 性 的 简 例 

主题 Wi Wo Ws Wa Ws We We 

t, 0.09 0.15 0.10 0.02 0.25 0.18 0.21 

fy 0.22 0.18 0.03 0.19 0.17 0.05 0.16 
"E ME E E EL NE NEL NE. 

1. 以 上 的 机 率 值 代表 主题 的 特征 : ES ER SERE ta KAD Is [0.09, 0.15, 0.10, 
0.02, 0.25, 0.18, 0.21] 形 式 之 特征 向 量 。 利 用 宰 语 出 现在 主题 的 机 素 值 代表 主 
题 的 特征， 因此 相似 主题 彼此 有 相似 的 机 率 分 布 。 常见 的 相似 性 合计 方 法 有 
KLD ` JSD ` Pearson THESE ^ COS 和 折扣 累积 效益 (discounted cumulative 
gain， 简 称 DCG ) 等 。 以 表 1 RPI > URRH ISD 做 为 相似 性 估计 方法 or, ER 
t, AY ISD 4390573 0.09 > t, Et F5) AID 0.03 ° AL JS D 分 数 证 小 1 两 个 机 
ASTERA > HEEL ta Br, EE t, E tp EAA ° 
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N 


U 


. LAd EATA RRASA TAE E S86 e] i E TIE E RRE LY FL: 过 类 的 方法 有 


. Ao ER T TESS E S BR e d i TT BC SR RRE EIR E: 假定 取 


BAA es TR VUES P Se adn ze ^ R1 EIEE, ERRA (ws. w;, 
We, Wo} * ff tp Et HIJA RIZ s (W4, Wo, Ws, Wz} RI Ws, wy Wa, wa} * 相似 
AYE ATSB > RAAT f S T 73V RACAL 
Dice) GE ° URERA JAC OSEE ER STÀUR * MEA t, Er OES ESE 
VEXFEAPIS] > (Epi PSIG ^ AE > rn Edr RU Belt BJACHESEO.6 * 


Spearman 等 人 级 相关 傈 数 、Kendall t 42% ( Kendall's t coefficient * IAS KEN ) 
USER fi] ER 08873 (rank biased overlap > fÉIfiÉERBO ) ° [EGET HI RBO fis 
相似 性 佑 计 方 法 利用 关键 词 语 的 顺序 比较 两 个 主题 的 相似 性 ， 表 1 上 的 各 个 
主题 同样 取 机 率 值 较 高 的 前 四 个 关键 词 落 代表。 此 时 “， 因 为 刀 与 上 上 的 关键 
说 萎 顺序 比较 相似 ， 其 分 数 徇 轧 0.855， 比 六 与 思 的 分 数 0.27 大 。 也 就 是 刀 与 太 
EE ta Bü t, BA ° 

Mantyla = (2018) ` Kim EH Oh (2011) DAR Niekler Bl Jahnichen (2012 ) 比 


较 不 同 的 主题 相似 性 估计 方法 的 相关 研究 aMantyla 等 (2018 ) JE Spearman 5$ 
级 相 关 保 数 、JAC 和 RBO 等 多 种 方式 估计 主题 之 间 的 相似 性 ， 然 后 计算 主 是 


建 模 的 稳定 性 测量 。 和 结果 发 现 这 些 万 法 所 得 到 的 稳定 性 分 数 之 闫 有 很 高 的 正 相 


BARE e Kim 8 Oh (2011) * Niekler #@Jahnichen (2012) 的 研究 趴 然 不 是 针对 使 
用 相同 文本 集合 进行 多 次 训练 产生 的 主题 模型 ， 但 他 们 将 主题 相似 性 运用 在 不 
同时 间 区 段 所 产生 的 主题 模型 ， 找 出 各 个 模型 中 相似 的 主题 ， 追 跤 主题 在 时 
关上 的 演化 情形 ， 也 是 主题 相似 性 估计 的 应 用 。Kim 与 Oh(2011 ) 比较 JAC、 
KLD ` JSD ` COS `KEN 和 DCG 等 六 种 方式 来 估计 前 后 时 期 两 个 主题 乙 问 的 相 
似 性 ， 以 找 出 最 相似 的 主题 ， 做 为 新 闻 中 持 乔 出 现 的 蔗 题 (issues )。 在 Niekler 
Ed Jühnichen (2012) 的 研究 中 ， 他 们 以 每 天 的 新 闻 建 立 主题 模型 ， 挑 玩 出 每 天 


都 出 现 的 主题 ， 然 后 应 用 了 JSD 、COS 和 Dice 分 数 等 三 种 方法 估计 两 个 日 期 


所 有 主题 之 问 的 相似 性 。 


EE SUA 
从 上 述 的 文献 探 计 可 疯 察 到 目前 在 主题 建 模 稳定 性 的 测量 方法 中 ， 较 主流 


的 测量 架构 是 首先 训 生 出 多 个 模型 ， 然 后 人 针对 每 两 个 模型 计算 其 二 致 性 分 数 ， 
以 所 有 一 致 性 分 数 的 平均 值 做 为 稳定 性 的 测量 值 (Belford et al., 2018; De Waal 
& Barnard, 2008; Greene et al., 2014 )。 证 算 两 个 模型 之 问 的 一 致 性 分 数 时 “， 由 於 
每 个 模型 上 的 主题 次 序 与 内 容 不 大 可 能 完全 相同 ， 因 此 关键 步 灵 是 进行 主题 对 


诸 ， 找 出 两 个 模型 之 间 的 最 佳 主题 配对 和 组合， 然后 再 比 对 两 个 模型 应 用 於 文件 


主题 指定 结果 或 估计 配对 主题 的 相似 性 。 由 於 主题 建 模 方法 的 应 用 不 伪 是 盯 解 


目前 文件 集合 内 各 文件 具有 的 主题 分 布 0; 更 可 进一步 利用 各 主 昨 上 的 市 语 机 
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素 分 布 4 去 推论 新 进 文件 上 的 主题 分 布 ， 且 透 过 主题 词 藻 机 率 分 布 ， 较 容易 解读 主 
题 建 模 的 结果 ， 因 [此 本 研究 将 揉 用 Belford 等 (2018 ) 和 Greene 等 (2014 ) 使 用 的 主题 
建 模 稳 定性 测量 框 保 ， 六 利用 配对 主题 相似 性 的 平均 值 计算 模型 之 更 的 一 致 性 分 数 。 

另 一 方面 ， Belford 等 (2018 ) 和 Greene 等 (2014 ) 以 每 一 个 主题 上 前 7 个 出 
现 机 率 较 高 的 说 萎 集 合 来 估计 主题 之 间 的 相似 性 。 相 较 於 使 用 所 有 泣 放 的 机 率 
值 或 机 率 的 大 小 顺序 ， 二 种 方式 所 使 用 的 数据 量 相当 少 。 公 使 用 主题 词 藻 机率 
分 布 上 少 部 分 资讯 来 估计 主题 相似 性 ， 是 否 会 对 相似 性 的 估计 和 络 果 ， 甚 至 主题 
建 模 的 稳定 性 测量 车 果 产 生 影 响 ， 值 得 进一步 探讨 。 因 此 本 研究 将 应 用 多 种 主 
题 相似 性 方法 於 主题 建 模 的 稳定 性 测量 ， 计 算 主 题 对 旗 产 生 配 对 结果 相同 的 比 
例 ， 比 较 各 种 相似 性 估计 方法 ， 薄 现 察 过 些 方 法 在 模型 忆 间 最 佳 主题 配对 和 组 合 
上 的 相似 性 分 数 分 布 。 

mete > HAIRS Greene ¥ (2014 ) LL Ballester El Penner ( 2022 ) 等 少数 研 
完善 针对 不 同 主题 数目 如 何 影响 稳定 性 进行 探讨 ， 但 Ballester 与 Penner(2022 ) 
所 使 用 的 稳定 性 测量 方法 主要 针对 应 用 於 文 件 议 集 的 主题 建 模 方法 上 ， 而 
Greene & (2014 ) 使 用 的 文本 资料 都 已 经 有 明确 的 主题 ， 且 主题 数目 都 相当 小 。 
因此 本 研究 将 使 用 主题 不 明确 且 数 量 较 多 的 文本 资料 ， 分 析 主 题 数 目 对 稳定 性 


测量 的 影响 。 


三 、 研 究 方法 

本 研究 在 测量 主题 建 模 的 稳定 性 时 所 揉 用 De Waal E Barnard (2008 ) ` 
Greene 等 (2014)、Belford 等 (2018) 使 用 的 主题 建 模 稳 定性 测量 架构 ， 其 过 程 
如 图 1 所 示 : 站 对 文本 资料 的 集合 ， 利 用 LDA 主题 建 模 程式 ， 和 进行 多 次 主题 建 
Tei > BIRRE MERAY ; 时 估计 每 一 对 模型 上 各 个 主题 之 问 的 相似 性 ; OAE 
些 相 似 性 分 数 ， 番 过 主题 对 讲 生 ， 找 出 平均 相似 性 分 数 最 佳 的 主题 配对 租 合 ; 
由 以 最 佳 配对 和 组合 上 的 相似 性 分 数 计算 过 一 对 模型 的 一 致 性 分 数 ; 四 将 所 有 
M(CM-1D/2 对 模型 的 一 致 性 分 数 进 行 平 均 ， 做 为 稳定 性 的 测量 值 。 以 下 说 明 本 研 
完 使 用 的 文本 资料 、 主 题 建 模 以 及 各 种 相似 性 估计 方法 ， 最 后 是 主题 模型 一 至 
性 的 计算 与 主题 建 模 的 稳定 性 测量 。 


忠文 本 资料 

本 研究 从 批 跑 跑 实 业 坊 电子 布告 栏 系 统 (PTT BBS ) 上 葬 集 估计 主题 建 模 稳 
定性 的 文本 资料 。 本 研究 选择 PTT BBS 书 板 (https://www.ptt.cc/bbs/book/index. 
html) 上 网 友 发 布 的 文章 ， 利 用 自行 撰写 的 程式 苑 集 改 文 内 容 “建立 语料库 ， 
昔 集 的 时 间 得 转自 2009 年 1 月 起 到 2021 年 4 月 ， 共 多 得 32,.895 笔 发 文 “ 

由 於 忌 板 上 发 文 内 容 主 要 以 中 文书 袁 ， 所 以 在 进行 主题 建 模 前 ”需要 先 径 
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1 主题 建 模 稳 定性 测量 过 程 示意 


操 主 题 相似 性 


主题 相似 性 分 数 


最 佳 主题 
配对 租 合 


四 模型 一 致 性 


计算 


模型 一 致 性 


固 稳 定性 测量 


主题 建 模 稳 定性 

过 断 词 契 理 (word segmentation )。 本 研究 探 用 中 央 研 究 院 祠 知 识 库 小 组 开发 的 
ckiptagger (Li et al., 2020) 做 钨 断 词 系统 ， 将 输入 的 发 文 内 容 切 分 为 鹿 萎 的 序 
列 。 同 时 ， 也 将 断 词 结果 输入 ckiptagger 的 词类 标示 ( part-of-speech tagging ) 模 


租 ， 标 示 出 每 个 词语 对 应 的 词类 。 

要 进行 主题 建 模 ， 可 先 建立 建 模 用 的 词典 ， 吏 整 语料库 内 所 有 文本 人 资料 
出 更 的 词语 ， 迪 滤 较 不 重要 的 停 用 词 。 本 研究 在 过 滤 停 用 词 时 ， 依 据 鹿 语 的 词 
类 和 在 整个 语料库 上 出 现 的 纺 次 数 和 发 文 数 进 行 过 渡 ， 保 留 普通 名 鹿 、 专 有 名 
齐 、 地 方 前 、 名 物化 动词 与 非 壮 形容 说 等 鹿 类 的 诅 落 ， 但 删除 出 现 次 数 少 於 30 
次 或 出 现 发 文 数 在 纺 发 文 数 1/10 以 上 的 词 应， 共 得 到 3.043 种 不 同 词话。 

最 合 建 立 建 模 用 的 文本 集合 。 以 词典 统计 每 笔 发 文 上 出 现 的 宰 语 种 类 ， 选 
择 内 容 中 至 少 包含 五 种 词语 的 发 文 ， 做 如 文 本 集合 。 最 合集 合 内 共计 20,287 笔 
改 文 ， 所 有 发 文 上 出 现 的 词语 编 数 豚 1,579,116 个 词 。 


C) 主 题 建 模 

将 词典 与 分 析 的 文本 集合 以 及 讼 定 的 参数 输入 主题 建 模 ， 产 生 主 题 模型 。 
本 研究 控 用 python 上 较 多 人 使 用 的 主题 建 模 套件 gensim Chttps://radimrehurek. 
com/gensim/ )， 版 本 总 3.6.0。 但 为 了 得 到 较 佳 的 主题 模型 结果 志 在 gensim EHX 
FB University of Massachusetts 开 发 的 主题 建 模 软体 Mallet (MAchine Learning for 
LanguagE Toolkit, http://mallet.cs.umass.edu/ ) 进行 建 模 ， 使 用 的 Mallet 版 本 贺 2.0:8。 

在 本 研究 中 ， 固定 先 验 参 数 c 和 ,针对 不 同 主题 数目 (K = 5, 10, 15,..., 
100 )， 各 建立 20 个 模型 *。 对 於 模 型 数目 的 选择 上 ， 需 要 足 约 多 的 模型 才能 确认 


3 


Lu 
TT 

& 

E 


EF FIR FES Wake 1550 * BERI Gensim£fFRUfREREE + IERRA iteration) 也 
Gensim 套 件 预 设 值 1.000。 
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每 次 执行 产生 的 模型 主题 是 否 不 稳定 ， 但 又 因为 需要 估计 每 一 对 模型 的 主题 相 
WE > EHROM ， 模型 数目 过 多 ， 也 会 影响 研究 的 效率 。 本 研究 参考 
Mantyla 等 (2018 ) 的 研究 设计 ， 将 模型 数目 设 角 20。 运 些 主题 模型 将 用 来 测量 
模型 间 主 题 的 相似 人 性， 分 析 与 比较 不 同 的 相似 性 估计 方法 以 及 探讨 主题 数目 对 
主题 建 模 稳定 性 的 影响 。 


鲜 相 似 性 估计 方法 

根据 前 面 对 於 相似 性 估计 方法 的 探讨 ， 主题 的 特征 可 以 使 用 : 1. 词 语 的 
出 现 机 率 分 布 ，2. 机 率 较 高 的 关键 鹿 萎 集合 ，3. 己 萎 的 出 现 机 率 顺 序 等 方式 代 
表 。 本 研究 从 各 类 的 代表 特征 中 选 出 六 种 方法 应 用 於 主题 建 模 的 稳定 性 测量 ， 
使 每 种 主题 特征 类 型 至 少 有 一 种 方法 。 本 研究 兹 调整 各 种 方法 输出 结果 “， 使 得 
所 有 的 估计 生 围 在 0 与 1 之 间 ， 站 上 且 主题 之 问 意 相似 者 ， 其 估计 分 数 意 大 。 以 
下 齐 明 过 六 种 方法 以 及 本 研究 如 何 调 整 盖 应 用 。 

1.JS 散 度 (JSD ) 

JSD 可 以 估计 两 个 机 率 分 布 之 更 的 差 办 ， 是 以 KLD 为 基础 的 延伸 ， 目 的 是 
为 了 改善 KLD 不 对 称 、 计 算 分 数 的 范围 不 定 4 有 可 能 为 无 限 大 ) 等 问题 。JSD 
的 范围 在 0 与 1 之 间 ， 如 果 两 个 机 率 分 布 傅 相似 ， 则 它们 之 问 的 JSD Xi] (Kim 
& Oh, 2011) )。 因 此 ， 委 我 们 以 词语 的 机 率 分 布 分 别 代表 主题 ， 假定 第 ;个 模型 
的 第 个 主题 tx 和 其 在 第 j 个 模型 上 第 /个 主题 的 词语 机 率 分 布 分 别 是 $ix 和 9Bj ， 
利用 JSD 估计 过 两 个 主题 的 相似 性 分 数 simysp (tac tr IRF ^ WDE SS 1 WEE 
之 问 的 JSD 分 数 JSdiv(8ixl18i)， 也 就 是 simyjsp(tiw tr) € 1—Sdiv(óuó;) ° 

2. ERIH HRT (NDCG ) 

DCG 是 一 种 排序 品质 的 测量 方法 ， 轻 常用 来 评估 搜 姑 引擎 演算 法 的 有 效 性 
(Jarvelin & Kekäläinen, 2002 )。 由 於 搜 寻 引 警 的 检索 应 臣 尺 量 将 相关 性 高 的 答 
案 排 在 结果 前 列 。 所 以 当 评 估 搜 对 引 擎 时 ， 其 成 效 的 计算 方式 是 将 所 有 预测 络 
果 与 正确 答案 相 比 的 相关 性 分 数 除 以 正确 答案 所 在 位 置 的 对 数值 ， 夭 此 沽 少 后 
列 正确 答案 的 重要 性 ， 最 后 将 过 些 轻 过 折扣 的 分 数 加 绳 起 来 。 在 本 研究 的 应 用 
上 “考虑 饥 了 使 相关 性 分 数 估计 的 结果 得 围 在 0 与 1 问 ， 将 探 用 正规 折扣 昧 种 
效益 (normalized discounted cumulative gain， 简 称 NDCG ) ° Wf HAIR NDCG ÉY 
ati he ABA , 也 就 是 NDCG(ixs Pj) # NDCG(9ji, Pir) = Hir DR See, BE RH 
tl FAME SS Bl simupcs (tuc tu) XE NDCC (pi $n) + NDCG(6;, 2/2 > (HEEL AL 
对 称 性 。 

3. 鲜 弦 测 量 (COS ) 

COS 以 两 个 向 量 之 间 夹 角 大 小 (Maier et al., 2018 )， 评 估 关 两 个 向 量 方 向 的 
相似 度 ， 如 果 关 两 个 向 量 的 方向 完全 相似 ，COS 的 测量 结果 为 1， 如 果 完 全 相 
有 反 ， 测 量 结 果 胃 -1。 因 此 ， 在 测量 主题 i 与 另 一 个 模型 的 主题 革 的 相似 性 分 数 
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simeos(tuc tj 了 蛙 ， 可 以 将 它们 的 蛮族 机 率 分 布 bx 和 ww 太 为 是 特征 向 量 ， 利 用 COS 
进行 估计 ， 也 就 是 stmcos(tiz 艺 ) = Cos(puo Pj) * HSA COS 的 结果 和 范围 在 -1 到 1 之 
关 ， 但 因为 上 上 蛮族 的 机 率 值 都 是 大 於 或 等 於 0， 所 以 相似 性 分 数 simcos(tx tir) 
的 值 和 范围 在 0 与 1 之 问 。 

4.Jaccard 分 数 (JAC ) 

JAC 轻 常 使 用 於 估计 两 个 集合 的 相似 性 ， 其 计算 方式 筷 两 个 集合 的 交集 内 
的 元 素 个 数 除 以 联 集 内 的 元 素 个 数 。 如 果 两 个 集合 内 的 元 素 相当 相似 时 “， 它 们 
的 交集 和 联 集 中 的 元 素 都 和 它们 相似 ， 所 以 其 JAC 接 近 1 ; 反之 ， 两 个 集合 
的 元 素 相当 不 同时 ， 它们 交集 内 的 元 素 个 数 比 起 联 集 内 的 元 素 个 数 少 很 多 ， 
此 时 的 JAC 接 近 0。 以 出 现 机 率 较 高 的 前 面 数 个 关键 词 范 所 形成 的 集合 代表 主 
题 时 “， 便 可 揉 用 JAC 估 计 任 何 一 对 主题 的 相似 性 分 数 (Belford et al., 2018) 。 
例如 主题 .与 主题 的 前 T 个 机 率 最 高 的 词语 所 成 的 集合 分 别 是 Rx 与 By， 估计 
FHES S simyac(tin ta) > PAES hy Jaccard(Ry, RD。 本 研究 参考 Belford 等 
(2018) KIFIZESSE * BEAL B 10 18 PESE ie ar RA Rael aA TRIN RRE E ， 
也 就 是 T= 10 ° 

5. 等 级 偏向 重 于 分 数 ( RBO ) 
正如 先前 在 相关 研究 的 讨论 ， 利 用 JAC 估 计 两 个 主题 的 相似 性 分 数 只 考 
钻 两 个 主题 的 关键 词语 的 重 忆 性 ， 闻 没有 考虑 词语 对 主题 的 重要 性 ， 而 过 样 的 
重要 性 反应 在 袜 语 在 主题 上 的 机 率 以 及 其 顺序 。RBO 可 以 考虑 关键 词语 在 主题 
上 的 重要 性 ， 使 得 机 率 较 大 的 词语 在 计算 相似 性 分 数 时 能 狗 有 上 比较 大 的 影响 力 
(Webber et al., 2010) ° RBO AYA RHEE CE 0 Bl 1 ZT] ^ AR RBO 278/030 ^ 表示 
ag PA 3-88. EA aaa o IH]: 如 果 RBO 分 数 较 大 ， 表 示 过 两 个 主题 的 关 
键 说 落 与 其 重要 性 顺序 都 很 接近 (Mantyla et al., 2018 )。 因 此 “， 本 研究 将 相似 性 
4] Wsimeno (tix ti) XE FE JS RBO (Rix, RD。 与 JAC 相 同 ， 本 研究 选用 前 10 (A ESR dc 
高 的 词语 所 成 的 集合 代表 主题 ， 但 需要 注意 的 是 输入 RB0(Rix, R;)R S] Ra ERR; EÉ 
每 一 个 词语 则 必须 按照 它们 在 主题 上 的 机 率 排 序 。 

6. Kendall rf (KEN) 

KEN 42} 9 (eh pbi ls SACS IER B o HERR HR RE ^ ki ERE C non- 
parametric ) fiat AA ° KEN 计算 某 一 个 数列 上 的 资料 项 目 与 其 他 项 目的 相对 顺 
序 关 傈 在 另 一 个 数列 上 是 否 能 锡 和 维持 的 个 数 ， 当 其 相对 顺序 关 傈 都 能 狗 保 持 
上 时， 它们 的 KEN 值 角 1， 如 果 都 无 法 保持 上 时， 它们 的 KEN 值 篇 -1。 本 研究 在 估 
&T 3E ele, BEE b CA FALE 2) B simae (tio ta A > FEW FREER Fb, Allo ERY 
BSA hat Pal Ee baal FF ee ET RE ^ tie Kendall (pix, $5) ° 
但 是 KEN AY fa ER S eel Ze —1 88 1.7 [8] © ARES CRIA 0 YE asad A 0 BETA 
性 分 数 simxsw (tir t ALG E40 Bi. 1 17 F4] e 


M 
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过 六 种 方法 的 前 三 项 (JSD、NDCG 和 COS ) 都 是 根据 所 有 词语 的 机 率 做 为 


主题 特征 ，JAC 和 RBO 则 是 渤 取 部 分 机 率 较 高 的 关键 词语 集合 代表 主题 ， 其 中 


RBO 渤 考 虑 说 落 的 机 率 顺序 ， 最 后 KEN 则 是 以 所 有 蛮 语 的 机 率 顺 序 做 为 代表 主 


题 的 特征 。 
四 主题 模型 一 致 性 计算 与 主题 建 模 称 定性 测量 


在 估计 两 个 模型 之 问 的 所 有 相似 性 分 数 之 人 后， 将 过 些 分 数 输 入 匈牙利 演算 


法 ， 进 行 主 题 对 弯 ， 产 生 最 佳 主题 配对 和 粗 合 。 在 获 得 最 佳 主题 配对 租 合 之 后， 


本 研究 将 计算 配对 千 果 相同 的 比例 ， 上 比较 各 种 相似 性 估计 方法 ， 洁 枫 察 冲 些 方 


法 在 模型 乙 间 最 佳 主题 配对 和 组合 上 的 相似 性 分 数 分 布 。 


最 和 后， 将 每 一 对 最 佳 主题 配对 的 相似 性 分 数 进 行 平均 ， 做 为 过 两 个 主题 模 


型 忆 间 一 致 性 分 数 ， 兹 以 每 一 对 主题 模型 之 间 一 致 性 分 数 的 平均 值 做 为 稳定 性 


的 测量 值 。 本 研究 将 分 析 主题 数目 对 稳定 性 测量 的 影响 。 
四 、 主 题 建 模 稳 定性 的 测量 结果 分 析 
中 不 同 相 似 性 估计 方法 之 问 主题 配对 相同 的 比例 


稳定 性 测量 的 目的 是 评估 在 相同 起 始 条 件 下， 主题 建 模 方 法 每 次 产生 模型 


i 


具有 相似 主题 的 和 程度， 换言之 ， EAR ET EEN PR > BUS LABEL 
的 主题 能 否 配对 到 最 相似 的 主题 是 稳定 性 测量 的 重要 因素 。 因 此 ， 如 果 不 同方 
法 在 主题 对 亦 和 后 获得 近似 的 最 佳 配 对 和 组合， 表示 送 些 万 法 应 用 在 稳定 性 测量 上 


性 分 数 分 布 。 笑 果 如 表 2， 左 栏 是 主题 对 诸 配 对 结果 相同 的 方法 数量 ， 厂 桶 由 


有 相近 的 效果 。 本 研究 针对 LDA 主题 建 模 在 相同 起 始 人 条 件 下 产生 的 20 个 主题 模 
型 ， 统 计 六 种 方法 中 配对 和 络 果 相同 的 方法 数量 。 由 礁 研究 时 程 与 篇 幅 所 限 ， 目 
前 只 将 主题 数目 设 定 和 为 25， 未 来 可 进一步 观察 不 同 主题 数目 下 的 主题 配对 相似 


i 


是 该 类 型 配对 估 所 有 配对 (4,750 4) 的 百分比 。 由 於 在 本 研究 中 ， 兹 没有 发 现 


六 种 方法 都 不 同 的 主题 配对 络 果 “， 因 此 便 没 有 呈现 在 表 2 上 。 


表 2 25 个 主题 的 主题 建 模 主题 对 普 
结果 相同 的 方法 数量 估 比 
主题 对 询 配 对 千 果 相同 情形 ”个 比 (%) 

六 种 方法 都 相同 76.99 

革 其 中 五 种 方法 相 8.51 

仅 其 中 四 种 方法 相 8.59 

革 其 中 三 种 方法 相 4.80 

革 其 中 两 种 方法 相 1.11 


zi zi zi mi 


“本 研究 针对 LDA 主题 建 模 在 相同 起 始 人 条件 下 产生 20 个 主题 模型 ， 纺 共 190 (20x 1972) 对 模 


型 ， 每 对 模型 产生 25 个 主题 配对 ， 因 此 共有 4.750 对 。 
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表 2 的 配对 千 果 可 观察 到 不 同方 法 之 阐 有 很 高 比例 获 得 相同 的 情形 。 六 种 


方法 都 相同 的 配对 结果 迷 到 76.99%， 四 各 


或 四 种 以 上 方法 相同 配对 其 1 


H EAERI 


更 过 到 94.09% (76.99% + 8.51% + 8.59% )。 换 言 之 ， 如 果 主 题 建 模 的 稳定 性 测 
量 日 的 是 在 相同 的 主题 数 日 (KX) 和 先 验 参数 (a 和 6) 下 ， 人 针对 相同 文件 集合 


的 每 次 建 模 产 生 的 主题 应 谱 是 相似 的 前提 下 ， 麻 用 本 研究 探讨 的 过 庆 种 相 侯 
性 合计 方法 可 以 迷 到 大 致 相同 的 效果 。 

$E PK > Ja EB I SA fr A EL eB SIT BS RG 
两 责问 具 有 相同 配对 结果 的 比例 ， 比较 智 果 


对 结果 ? 本 研究 比较 不 同 的 方法 ， 


呈现 於 玫 3。 由於 每 对 方法 忆 问 具有 相同 配对 结果 的 比较 糙 果 是 对 称 的 ， 因 此 


表 3 只 呈现 比较 结果 的 下 半 部 ， 查 看 两 各 


方法 具有 相同 配对 结果 的 比例 ， 可 从 


表 上 两 种 万 法 分 别 对 应 的 行 与 列 上 取得 所 需 的 数值 ， 例 如 查看 COS 与 NDCG 的 
比较 和 结果， 可 和 从 表 上 COS 关 一 行 与 NDCG 过 一 列 上 的 数值 取得 。 
表 3 ”十 种 相似 性 估计 方法 有 具有 相同 配对 结果 比例 


JSD NDCG COS JAC RBO 
NDCG 90.88% 
COS 90.15% 96.48% 
JAC 85.81% 84.59% 84.06% 
RBO 84.67% 87.71% 86.80% 87.92% 
KEN 95.83% 89.68% 88.69% 85.07% 84.38% 


在 表 3 上 “任何 两 种 方法 具有 相同 配对 糙 果 的 比例 全 都 在 84% LAE > 也 就 


是 任何 两 种 方法 之 间 都 有 相当 接近 的 配对 结果 。 本 研究 站 


ER 3 的 结果 输入 完 


整 连 络 广 集 广 算法 (complete-linkage clustering algorithm )， 找 出 配对 结果 接近 
和 组， 第 一 组 是 COS、 


的 万 法 。 从 图 2 的 议 集 结果 可 以 观察 到 过 些 万 法 可 分 态 两 
NDCG 、JSD 和 KEN > 第 二 组 则 是 JAC 和 RBO > 在 同 租 
的 配对 千 果 。 前 一 组 方 法 都 是 运用 词典 


!' 所 有 词语 在 主题 


内 的 各 种 方法 有 更 接近 
FÉIERE o 的 数值 或 


顺序 ， 后 一 组 则 都 仅 利 用 机 率 最 大 的 前 10 个 关键 词语 上 的 资讯 。 过 可 能 是 造成 
ie PAA KZ 26 ERI] ERK e 
图 2 根据 相同 配对 结果 比例 ， 将 六 种 主题 相似 性 估计 方法 分 组 结果 
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方法 的 主题 配对 相似 性 分 数 分 布 。 
3 各 种 相似 性 估计 方法 的 主题 配对 相似 性 分 数 分 布 
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以 下 依据 代表 主题 的 特征 方式 ， 将 六 种 相似 性 估计 方法 分 马 三 组 进 
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三 种 方法 都 是 利用 所 有 词 萎 在 主题 上 的 出 现 机 率 作为 特征 。 


估计 方法 在 最 佳 主题 配对 组 合 上 配对 的 分 数 分 


的 讯 与 计算 方 式 的 差 罩 。 图 3 表示 各 种 估计 
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JAC 和 RBO 都 是 揉 用 关键 鹿 语 集合 做 为 代表 主题 的 特征 。 相 较 伶 其 他 方 
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以 上 的 配对 分 别 估 全 部 的 61.71% 与 76.11%。JAC 所 测量 得 到 的 主题 相似 性 分 数 
如 果 轧 1, 配对 主题 彼此 之 间 具 有 完全 相同 的 关键 词语 ，RBO 的 主题 相似 性 分 
数 如 果 轧 1' 配对 主题 除了 具有 完全 相同 的 关键 词 语 外 ， 关 键 词语 的 顺序 也 相 
同 。 在 本 研究 中 ，JAC 和 RBO 分 别 有 566 对 (11.92% ) B54 E (1.14% ) 主题 的 
相似 性 分 数 轧 1。 在 六 种 方法 中 ， 以 过 两 种 方法 产生 最 多 相似 性 分 数 筷 0 的 情 
形 。JAC 和 RBO 分 别 有 230 对 (4.84% ) ER 235 $ (4.95% ) 的 相似 性 分 数 包 0。 着 
个 情形 表示 有 些 配对 的 主题 有 完全 不 同 的 关 刍 词语 。 

3. KEN 

KEN 的 主题 配对 相似 性 分 数 范 团 则 在 0.0 到 0.8 之 间 ， 大 部 分 分 布 在 0.5 到 0.8 
之 疾 ， 估 全 部 的 73.56%， 且 其 中 最 高 只 到 0.76。 在 本 研究 中 ， 相 较 於 其 他 相似 
性 估计 方法 ，KEN 根 据 某 一 个 数列 上 的 资料 项 目 与 其 他 项 目的 顺序 关 傈 在 另 一 
个 数列 上 能 和 否 和 维持 的 差 黑 估计 主题 相关 性 ， 需 要 考虑 词典 中 每 对 诅 语 在 配对 的 
两 个 主题 上 具有 一 致 的 出 现 机 率 顺 序 。 但 每 个 主题 上 仍 包含 许多 不 相关 且 机 率 
相当 小 的 调 族 ， 可 能 造成 相似 的 主题 件 无 法 有 完全 相同 的 顺序 ， 影 响 KEN 的 计 
算 ， 因 此 所 得 到 的 相似 性 分 数 明显 地 较 其 他 方法 为 低 。 


(=) 主题 数目 对 论 主 题 建 模 稳 定性 的 影响 

本 研究 以 不 同 的 主题 数目 (K = 5 ~ 100) 各 建立 20 个 主题 模型 ， 然 后 测量 
主题 建 模 在 各 种 主题 数目 下 的 稳定 性 ， 图 4 上 的 折线 从 上 到 下 分 别 是 在 不 同 主 
RES E] 3H NDCG » JSD* COS ` RBO ` JACRIKEN 等 方法 测量 得 到 的 稳定 
性 。 在 图 4 上 可 观察 到 不 论 何 种 估计 方法 ， 随 车 主题 数目 增加 ， 稳 定性 都 有 明 
是 下 降 的 情形 。 政 旦 在 各 种 主题 数目 之 中 ， 以 五 个 主题 的 主题 模型 最 为 稳定 ， 


图 4 不 同 主题 数目 对 认 主 题 建 模 稳定 性 的 影响 
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且 其 程度 焉 较 其 他 数目 的 模型 高 出 相当 多 。 其 原因 可 能 是 由 於 主题 数目 增加 ， 
使 得 模型 中 的 主题 概念 范围 糖 小 ， 从 而 造成 在 主题 中 的 宰 语 、 顺 序 和 出 现 机 率 
容易 有 多 化 的 情形 ， 可 能 议 有 人 意 多 的 主题 无法 在 另 一 个 模型 中 比 对 到 相当 相似 
的 主题 ， 进 而 使 得 测量 到 的 稳定 性 释 差 。 


hos 论 


MEF LDA AEBS TE SCAR AT AS RE OK REA ^ SERRE FE PE 
eth ea SS) al © HEDe Waal Ei Barnard (2008 ) ` Greene (2014 ) # Belford 等 
(2018 ) 使 用 的 稳定 性 测量 架构 中 ， 主 题 之 间 的 相似 性 分 数 估 计 方 法 是 测量 主题 
建 模 稳定 性 的 基础 ， 芹 旦 产生 最 佳 主题 配对 组合 的 和 主题 对 讲 ,是 过 个 程序 的 关 
键 步 腑 ， 然 而 过 去 的 研究 较 少 比较 不 同 相 似 性 估计 方法 对 主题 建 模 稳定 性 的 影 
普 ， 也 缺乏 针对 主题 对 壮 的 结果 进行 探讨 。 本 研究 控 用 PTT BBS VHC 30,000 
笔 改 文 做 鸭 分 析 的 文本 集合 ， 站 应 用 JSD、NDCG + COS 、JAC、RBO 和 KEN 
等 相似 性 估计 方法 ， 比 较 不 同方 法 经 由 主题 对 这 之 后 产生 配对 结果 相同 的 比 
例 ， 兹 现 察 各 种 相似 性 估计 方法 在 配对 主题 上 的 相似 性 分 数 分 布 。 最 后 慈 探讨 
主题 数目 对 於 主题 建 模 稳定 性 的 影响 。 研 究 烙 果 有 以 下 的 发 现 : 

中 本 研究 提出 以 具有 相同 配对 结果 的 比例 来 比较 不 同 的 相似 性 估计 方法 在 
测量 主题 建 模 稳定 性 的 效果 “， 兹 发 现 本 研究 所 探讨 的 六 种 相似 性 估计 方法 配对 
结果 相同 的 情形 比例 相当 高 。 因 此 “， 在 稳定 性 测量 的 应 用 上 “， 例如 本 研究 进行 
的 主题 数目 对 於 稳定 性 的 影响 ， 各 种 方法 大 致 上 都 有 相同 的 效果 。 但 本 研究 也 
改 现 方法 上 运用 蛮 典 中 所 有 的 启东 ， 或 只 利用 少数 的 关键 蛮 萎 仍 会 轻微 影响 配 
对 和 结果 是 否 相同 。 

白 本 研究 观察 六 种 相似 性 分 数 估计 方法 ， 在 经 由 主题 对 诗 演算 法 产生 主 
题 配对 租 合 上 的 相似 性 分 数 分 布 ， 日 前 主题 建 模 的 稳定 性 测量 研究 尚未 有 关於 
二 方面 的 探讨 。 在 六 种 方法 中 ， 有 运用 所 有 蛮 萎 在 主题 上 的 出 现 机 率 做 为 主题 特 
微 的 JSD、COS 和 NDCG 等 三 种 方法 可 以 明显 地 观察 到 大 部 分 配对 有 相当 高 的 
相似 性 分 数 。 换 半 之 ， 未 来 将 可 有 运用 这 三 种 方法 搭配 匈牙利 演算 法 进行 主题 对 
讲 ， 然 后 以 较 高 的 相似 性 分 数 渤 取出 两 个 模型 中 相似 的 主题 。 JAC 和 RBO 两 
种 方法 公使 用 少数 出 现 机 率 较 大 的 关键 词语 做 为 主 题 特征 ， 使 得 相似 性 分 数 的 
分 布 较 分 散 ， 较 妈 透 过 观察 分 数 决定 主题 是 否 配对 到 另 一 个 模型 二 最 相似 的 主 
题 。 但 是 利用 JAC 和 RBO 方 法 可 发 现 配 对 中 关键 词 应 完全 相同 或 完全 不 同 的 
主题 。 KEN 的 估计 方式 是 根据 每 一 对 诅 语 在 配对 的 两 个 主题 上 是 否 维 持 一 致 顺 
序 ， 然 而 移 大 多 数 蛮 话 与 配对 的 两 个 主题 站 不 相关 。 

丘 本 研究 发 现 ， 主 题 数目 对 於 稳 定性 有 很 大 的 影响 ， 使 用 不 同 的 相似 性 
估计 方法 都 可 纲 察 到 ， 主 题 数目 愈 大 时 主题 建 模 全 不 称 定 的 现象 "Greene 等 
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(2014) 认为 ， 主 题 建 模 时 较 多 的 主题 将 造成 较 小 的 主题 范围 ， 使 得 每 次 建 模 产 
生 的 主题 多 不 相同 ， 容 易 造 成 建 模 时 的 不 稳定 ， 本 研究 的 结果 与 他 们 的 推 葵 相 
符合 。 然 而 本 研究 是 针对 LDA 主题 建 模 的 稳定 性 进行 探讨 ， 有 别 於 Greene 等 
(2014) SFE NMF 主题 建 模 的 研究 。 此 外 ，Greene 等 (2014 ) 的 实验 假定 文件 仅 
有 一 个 主题 ， 且 整个 文本 集合 内 的 主题 数目 闻 不 多 ; 本 研究 则 以 较 实 际 的 主题 
建 模 应 用 为 考量 ， 假 定 分 析 的 文件 中 可 能 包含 多 个 主题 ， 且 考虑 较 大 簿 围 的 主 
题 数目 对 主题 建 模 稳定 性 的 影响 ， 较 符合 实际 情况 。 
根据 上 壕 的 研究 结果 ， 我 们 建议 以 下 课题 做 怖 未 来 研究 的 方向 : 
门 由 於 研究 时 程 与 篇 幅 的 限制 ， 本 研究 在 进行 主题 建 模 的 稳定 性 测量 时 | 
将 模型 个 数 固 定 马 20， 节 在 使 用 JAC 和 RBO 两 种 方法 仅 使 用 10 个 关键 词语 
为 主题 特征 ， 未 来 可 探讨 不 同 模型 个 数 与 关键 词话 数 目 对 稳定 性 测量 的 影响 。 

白 目 前 在 测量 主题 建 模 的 稳定 性 上 时， 大 多 根据 估计 的 相似 性 分 数 计算 模型 
之 问 的 一 致 性 ， 未 来 也 许可 以 参考 Maier 等 (2018 ) 利用 可 能 正确 配对 的 主题 数 
量 个 比 ， 发 展 通 合 直 接 解 读 模 型 品质 的 测量 方式 ， 汞 找 出 各 个 模型 中 比较 稳定 
的 主题 。 例 如 整合 不 同方 法 的 特性 ， 先 运用 JSD、COS 或 NDCG 等 方法 搭配 多 
牙 利 淘 算 法 进行 主题 对 旗 ， 确 认 两 个 模型 中 较 相 似 的 主题 ， 然 后 再 利用 JAC 或 
RBO 等 万 法 渤 取 模型 中 较 稳 定 的 主题 或 排除 不 稳定 的 主题 。 

是 在 运用 主题 建 模 进行 文本 分 析 时 ， 主 题 数 目 是 一 个 相当 重要 的 输入 参 
数 ， 主 题 数 目 决 定 了 模型 上 主题 彼此 之 问 的 差 界 钼 可 解释 性 (interpretability ) ， 
主题 数 人 意 多 ,产生 的 主题 具有 意 加 狭隘 (narrow )， 而 特定 (specific ) 的 意义 ， 
半 致 多 个 不 同 的 主题 可 能 具有 相似 的 概念 ; 反之 ， 主 题 数 目 太 少 ， 将 使 得 主 
题 的 意义 广泛 ， 理 应 区 分 的 概念 被 包含 同一 主题 内 (Maier et al., 2018) ° EE 
有 相当 多 研究 利用 复杂 度 或 主题 次 调 性 决定 最 佳 的 主题 数目 ， 甚 至 厌 由 人 力 检 秽 
(Maier et al., 2018) * Greene 等 (2014 ) 提出 利用 稳定 性 发 现 最 佳 主题 数目 的 概念 。 
本 研究 则 建 蓝 未 来 可 淮 试 运用 与 整合 名 种 主题 模型 品质 指标 决定 最 佳 的 主题 数目 。 

由 最 和 后， 也 是 最 重要 的 ， 在 累积 更 多 主题 建 模 稳定 性 测量 的 和 经验 ， 对 二 
项 主题 模型 品质 有 较 深 入 的 上 解 后 ， 可 进一步 党 试 发 展 提升 主题 建 模 稳 定性 的 
方法 ， 使 得 相同 输入 人 条件 下 每 次 产生 模型 上 的 主题 玉 可 能 相似 ， 让 文本 分 析 
的 结果 具有 高 信 度 。 目 前 已 有 一 些 有 关 过 方面 的 研究 ， 例 如 前 述 的 Chuang 等 
(2015 ) ` Lancichinetti (2015 )、Koltcov 等 (2016 ) ` Agrawah<$ (2018) ^. Maier 
$$ (2018) 和 Mantyla 等 (2018 ) ° 
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附录 : 匈牙利 演算 法 及 其 在 主题 对 讨 的 应 用 


以 下 首先 说 明 匈 牙 利 演 算法 的 输入 、 目 的 与 步 服 ， 接 著 以 一 个 范例 吝 明 本 研究 利 
FA FP EET EE PE TRS © 

43 FRR IE A i As EITE AB Ry K AERE ^ ABIRE LAAT EUS} BURRS 
BEE TACHI PRA ^ Fe AOC SSAA NBS ZI ZEB e DS TT REY 
Tose abl + ETEIRS ECTS ES — HB 28 i I Bs A I TZ e Ce Al] 
TREE BEAL T : 
Step 1: FAEERE LAS — IT * WAS TIC PRU ME e 
Step 2 : SANA AGRE ERII — 71 > Eis TCSP B/E e 
Step 3 : FHRA EAR SAS EF PUHAS 087638 ° URARI A H d 

fTEXK > HEFT Step 4。 和 否则 ， 直 接 进 行 Step 5 ° 
Step 4 : 找 出 整个 矩阵 中 不 是 0 的 元 素 中 的 最 小 值 m， 将 所 有 不 是 0 的 元 素 沽 去 mr。 
找 出 两 休 和 绿 交 叉 上 为 0 的 元 素 ， 取 代 和 为首 。 然 后 ,返回 Step 3 ° 

Step 5 : 渤 择 一 个 行 典 列 的 配对 租 合 ， 使 得 每 一 行 或 每 一 列 都 只 有 一 个 0 被 哆 

本 研究 在 计算 两 个 模型 的 主题 以 及 每 一 对 主题 之 阅 的 相似 性 分 数 之 合 ， 将 应 用 名 
牙 利 演算 法 进行 主题 对 讲 。 以 附 图 1(a) 上 的 矩阵 骸 例 ， 表 示 两 个 主题 数目 豚 5 的 模型 上 
每 一 对 主题 之 问 的 相似 性 分 数 ， 兹 上 且 过 些 相似 性 分 数 的 值 在 0 到 1 之 间 。 由 於 匈牙利 演 
算法 是 计算 两 组 项 目 乙 间 上 最 小 差距 和 和 的 配对 “， 但 本 研究 希望 取得 两 个 模型 上 相似 性 
分 数 各 和 最 大 的 主题 配对 ， 所 以 首先 以 1 沽 去 相似 性 矩阵 上 每 个 元 素 的 值 ， 畦 换 为 差距 
矩阵， 如 附 图 1(bj 所 示 。 假 定 第 1 个 模型 的 第 1 个 主题 与 第 2 个 模型 的 第 1 个 主题 之 间 的 
相似 性 分 数 为 0.29， 过 个 值 放 在 附 图 1(aj 相 似 性 矩阵 的 第 1 行 第 1 列 上 “， 当 转换 轧 附 图 (b) 
AI ZEEE ABIES ES 1 — 0.29 = 0.71 © 

接著 进行 演算 法 的 Step 1 ° REI TT WES» ARMAS DCSE ° DUAE 
第 1 行 的 元 素 为 [0.71, 0.93, 0.08, 0.24, 0.85]， 其 中 以 0.08 为 最 小 的 元 素 值 ， 因 此 将 过 行 上 
所 有 的 元 素 减 去 过 个 值 ， 和 结果 轧 [0.63, 0.85, 0, 0.16, 0.77]。 其 他 各 行 也 是 经 过 如 此 还 算 ， 
结果 为 附 图 1(C 上 的 和 矩阵。 然后 进行 Step 2， 将 每 列 的 元 素 减 去 雯 列 的 最 小 元 素 值 ， 结 
果 如 附 图 1(dj 上 的 矩阵 。 

在 演算 法 的 Step 3， 利 用 最 少 的 缚 通过 目前 和 矩阵 上 所 有 出 现 0 的 元 素 。 先 选取 上 面 
有 最 多 0 的 行 或 列 开 始 ， 以 线 通 过 过 个 行 或 列 。 处 理 完 人 后， 如 果 矩 了 别 上 还 有 0 尚未 被 通 
过 ， 再 玩 取 目前 上 面 有 最 多 0 的 行 或 列 ， 以 和 线 通 过 。 重 复 进 行 上 面 的 处 理 过 程 ， 一 直到 
和 矩 障 上 所 有 的 0 都 有 精通 过 为 止 。 以 附 图 1(dJ 上 的 矩阵 为 例 ， 先 选择 具有 3 个 0 的 第 3 列 ， 
以 各 覆 蓝 此 列 。 然 后 ， 再 依 序 利用 续 通过 第 3 行 、 第 5 行 以 及 第 1 列 和 第 5 列 。 和 结果 如 附 
图 1(tej 所 示 。 目前 矩 了 别 上 共有 五 休 和 线 ， 与 行 和 列 的 数目 相等 ， 因 此 接著 进行 Step 5 ° 

Step 5 先 玩 取 只 有 单独 一 个 0 的 行 ， 例 如 附 图 1( 人 上 的 第 1>2 和 4 等 行 。 将 过 些 行 
上 的 0 所 在 列 上 其 余 的 0 进行 标记 “， 例 如 根据 第 1 行 上 的 0, 也 就 是 (1, 3) (表示 第 4 行 、 
第 3 列 ， 以 下 的 表示 方式 时 此 相同 ) 位 置 的 0， 标 记 同 样 在 第 3 列 上 其 他 的 07 包括 (G3, 3) 
和 (5, 3) 等 位 置 上 的 0， 附 图 1(f 人 呈现 过 个 处理 的 示意 图 。| 如 果 有 没有 被 选取 的 行 iw' 便 再 
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的 例子 希 第 3 行 与 第 5 行 。 反 覆 进 行 上 面 的 处 理 过 程 ， 一 直到 
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Estimation of Topic Similarity and Its 
Application to Measuring Stability 
of Topic Modeling 


Sung-Chien Lin 


Abstract 


Topic modeling stability is a measurement of the extent to which models 
produced by the same modeling approach for the same corpus and with 
the same initial conditions have similar topics. Since the method used for 
calculating similarity between topics is considered the basis for measuring 
topic modeling stability and topic alignment is a key step in the measurement, 
the present study first calculated the proportion of identical paired topics 
among the optimal combinations of paired topics generated using different 
topic similarity calculation methods, and then observed the distribution 
of similarity scores of paired topics for each method. Finally, this study 
performed an analysis of the effects of the number of topics on topic modeling 
stability. The topic modeling method used in this study is commonly used 
LDA topic modeling, and the corpus used to establish topic models including 
about 30,000 posts was collected from the PTT Bulletin Board System (BBS) 
Book message board. The results indicated that there is a high proportion of 
identical paired topics among the different methods of measuring similarity, 
although the similarity scores of paired topics for each method had different 
distributions due to the different kinds and amounts of information of word 
distribution in each topic they used. The results also revealed that with the 
increase of the number of topics, the stability noticeably decreased. 
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Keywords: Topic modeling, latent Dirichlet allocation (LDA), Stability 
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SUMMARY 


Introduction 
Topic modeling can reveal topic structures contained in a corpus and aid 
in the rapid and effective analyses of large amounts of text. Currently, latent 
Dirichlet allocation (LDA; Blei et al., 2003) is regarded as the most popular topic 
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modeling technique among researchers and is widely used for problems involving 

text analyses (Lancichinetti et al., 2015). However, in practice, even with the 

same parameters and corpus, the models produced with this technique somewhat 
differ from each other, calling into question the reliability of the analysis results 

(Maier et al., 2018). This problem casts doubt on the usefulness of LDA topic 

modeling (Belford et al., 2018; Chuang et al., 2015). 

Topic modeling stability is a measurement of the extent to which models 
produced by the same modeling approach for the same corpus and with the same 
initial conditions have similar topics. Several methods can be used to measure 
topic modeling stability. For instance, in the present study, the framework used 
for measuring topic modeling stability (De Waal & Barnard, 2008; Greene et 
al., 2014) involved producing multiple topic models through repeated modeling 
with the same corpus and number of topics and then performing topic alignment 
between any two topic models by using the Hungarian algorithm to determine the 
optimal combination of topic pairs. In this combination, the mean similarity of 
the topic pairs was the agreement score of the two models, whereas the mean of 
the agreement scores was the measurement of the topic modeling stability. 

According to this measurement framework, the method used for calculating 
similarity between topics is considered the basis for measuring topic modeling 
stability. Belford et al. (2018) and Greene et al. (2014) used Jaccard’s score 
(JAC) to calculate topic similarity; however, their approach considered only a 
small portion of information in the word distribution of each topic. Therefore, in 
the present study, the following six methods for measuring topic similarity were 
used and compared: Jensen-Shannon divergence (JSD), normalized discounted 
cumulative gain (NDCG), cosine measure (COS), JAC, rank-biased overlap score 
(RBO), and Kendall’s t coefficient (KEN). Topic alignment is a key step in this 
measurement framework. If two different methods for measuring topic similarity 
yield highly similar optimal combinations of topic pairs, the two methods may 
have similar stability measurement outcomes. The distribution of the similarity 
score of paired topics can also indicate which methods are more likely to identify 
the topics that appear in most models after topic alignment. 

This study performed the following analysis tasks: 

Task 1: Conduct an analysis of the proportion of identical paired topics among 
the optimal combinations of paired topics generated using different topic 
similarity calculation methods. 

Task 2: Perform an analysis of the distribution of similarity scores of paired topics 
for each method. 

Overall, the study conducted by Greene et al. (2014) is regarded as one of 
the few studies analyzing the effects of the number of topics on, topic; modeling 
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stability. However, the corpus used in that study had few topics, which were 

already clearly defined. Therefore, a corpus with a greater number of topics was 

used in the present study. 

Task 3: Perform an analysis of the effects of the number of topics on topic 
modeling stability. 


Research Methods 

Word segmentation, part-of-speech tagging, and stop word removal were 
performed on 32,895 posts collected from the PTT Bulletin Board System (BBS) 
Book message board. Posts containing at least five words were selected to form 
a corpus for analyzing topic modeling stability. The final corpus included 20,287 
posts and 1,579,116 words. The topic modeling inputs consisted of this corpus 
and a dictionary. For each different number of topics (K = 5, 10, 15, ..., 100), a 
total of 20 models were created with fixed prior parameters o and p. 

Next, the six methods of measurement mentioned earlier were used with 
any two topic models to calculate the similarity between each topic pair. The 
results of each method were then adjusted to be between 0 and 1. The greater the 
similarity between any two topics was, the greater the score was. The similarity 
scores of all pairs of topics between every two models were then entered into the 
Hungarian algorithm to align the topics and obtain an optimal combination of 
topic pairs. Analysis Tasks 1 and 2 were then performed. 

Finally, the agreement score between every two topic models was obtained 
by averaging the optimal topic pair similarity scores. Analysis Task 3 was then 
performed using the mean agreement score between each pair of topic models as 
the stability measurement. 


Research Result 

Task 1 

This task involved assessing whether different methods of measuring 
similarity had the same effect when measuring stability based on the proportion 
of identical topic pairs in the optimal combinations of topic pairs. The results 
obtained indicated a high proportion of identical paired topics among the different 
methods of calculating topic similarity. The proportion of identical paired topics 
among the six methods reached 76.99%, and the total proportion even increased 
to 94.0996 in four or more methods. For any two methods, the proportion of 
identical topic pairs was 8446 or higher, suggesting that any two methods had 
similar stability outcomes. However, slight differences were observed between 
the methods that involved the use of all word distribution data, such as JSD, 
NDCG, COS, and KEN, and the methods that involved only a few keywords, such 
as JAC and RBO. 
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Task 2 

If a method for calculating topic similarity can yield a high similarity 
score between postalignment paired topics, then this means that this method can 
differentiate between similar topics within different models and thereby identify 
stable topics in each model. In this study, rather high similarity scores were 
observed among most of the paired topics when JSD, NDCG, and COS were 
used, which are methods that involve the use of the occurrence probability of all 
words in each topic, showing that these methods can easily identify stable topics 
in models. JAC and RBO are methods that involve the use of a set of keywords 
to represent topics. In this study, these two methods yielded similarity scores 
that were scattered across a wide range. In addition, approximately 5% of the 
similarity scores were 0, because the corresponding paired topics had completely 
different keywords. The KEN method considers every word to have a consistent 
order of occurrences among paired topics. However, each topic contains several 
irrelevant and low-probability words, which may cause similar topics to exhibit 
dissimilar orders and hence lower the similarity scores. 


Task 3 

This task entailed measuring the stability of topic models with different 
numbers of topics. The results revealed that with the increase of the number of 
topics, the stability noticeably decreased. This may be because with the increase 
of the number of topics, the topic ranges in the model became narrower, and the 
distribution of words in the topic became more prone to change. This may have 
resulted in an increasing number of topics being unable to align with similar 
topics in another model, thereby lowering the stability. 


Suggestions and Future Research 

In this study, topic alignment was performed using the Hungarian algorithm, 
and the agreement score between models was calculated on the basis of the 
similarity scores between paired topics. Future researchers may refer to Maier 
et al. (2018) and use the proportion of possible pairs as an indicator of model 
stability to develop a method of measurement that is suited to direct interpretation. 

During text analyses with topic modeling, the number of topics is considered 
a key parameter that determines the scope, accuracy, and interpretability of 
the model. Several studies have employed perplexity or topic coherence as an 
indicator of topic model quality to determine the optimal number of topics, and 
some have even involved manual reviews (Maier et al., 2018). Therefore, we 
suggest integrating stability with other quality indicators to determine the optimal 
number of topics. 
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Finally and most importantly, the methods used to improve topic modeling 
stability should be further developed. Increasing the level of stability can help 
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results. Among the current studies investigating this topic are those of Chuang et 
al. (2015), Lancichinetti et al. (2015), Koltcov et al. (2016), Agrawal et al. (2018), 
Maier et al. (2018), and Mantyla et al. (2018). 
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